論文の概要: SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer
- arxiv url: http://arxiv.org/abs/2508.12638v1
- Date: Mon, 18 Aug 2025 05:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.981042
- Title: SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer
- Title(参考訳): SpotVLM:コンテキスト転送に基づくクラウドエッジ協調リアルタイムVLM
- Authors: Chen Qian, Xinran Yu, Zewen Huang, Danyang Li, Qiang Ma, Fan Dang, Xuan Ding, Guangyong Shang, Zheng Yang,
- Abstract要約: VLM(Vision-Language Models)は、自律運転や人間とコンピュータのインタラクションといったリアルタイムアプリケーションにますます普及している。
既存のシステムでは、分割されたLVLM(Large Vision-Language Models)やタスクオフロード戦略が一般的である。
本稿では,LVLMの遅延出力を歴史的文脈として扱う,新しいクラウドエッジ協調パラダイムであるContext Transferを提案する。
- 参考スコア(独自算出の注目度): 14.669949808424409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) are increasingly deployed in real-time applications such as autonomous driving and human-computer interaction, which demand fast and reliable responses based on accurate perception. To meet these requirements, existing systems commonly employ cloud-edge collaborative architectures, such as partitioned Large Vision-Language Models (LVLMs) or task offloading strategies between Large and Small Vision-Language Models (SVLMs). However, these methods fail to accommodate cloud latency fluctuations and overlook the full potential of delayed but accurate LVLM responses. In this work, we propose a novel cloud-edge collaborative paradigm for VLMs, termed Context Transfer, which treats the delayed outputs of LVLMs as historical context to provide real-time guidance for SVLMs inference. Based on this paradigm, we design SpotVLM, which incorporates both context replacement and visual focus modules to refine historical textual input and enhance visual grounding consistency. Extensive experiments on three real-time vision tasks across four datasets demonstrate the effectiveness of the proposed framework. The new paradigm lays the groundwork for more effective and latency-aware collaboration strategies in future VLM systems.
- Abstract(参考訳): VLM(Vision-Language Models)は、自律運転や人間とコンピュータのインタラクションといった、正確な知覚に基づいて高速で信頼性の高い応答を要求するリアルタイムアプリケーションに、ますます多くデプロイされている。
これらの要件を満たすため、既存のシステムは一般的に、LVLM(Large Vision-Language Models)の分割や、SVLM(Large Vision-Language Models)のタスクオフロード戦略のような、クラウドエッジの協調アーキテクチャを採用している。
しかし、これらの手法はクラウド遅延変動に対応できず、遅延するが正確なLVLM応答の可能性を無視する。
本研究では,LVLMの遅延出力を歴史的文脈として扱い,SVLMの推論をリアルタイムに指導する,VLMのための新しいクラウドエッジ協調パラダイムを提案する。
このパラダイムに基づいたSpotVLMを設計し、コンテキスト置換とビジュアルフォーカスモジュールを併用し、歴史的テキスト入力を洗練し、視覚的接地一貫性を向上させる。
4つのデータセットにまたがる3つのリアルタイムビジョンタスクに関する大規模な実験は、提案フレームワークの有効性を実証している。
新しいパラダイムは、将来のVLMシステムにおいて、より効果的で遅延対応のコラボレーション戦略の基盤となる。
関連論文リスト
- EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3321872381107]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T12:34:16Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making [45.02997774119763]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。
我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
論文 参考訳(メタデータ) (2025-05-06T04:51:57Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Transferring Textual Preferences to Vision-Language Understanding through Model Merging [65.41765072566287]
本稿では,テキストベース報酬モデル (RM) と大規模視覚言語モデル (LVLM) を併用した学習自由な代替案について検討する。
提案手法は,これらのモデルを統合することで,LVLMのスコアリングやテキストベースのRMよりも性能が向上することを示す。
論文 参考訳(メタデータ) (2025-02-19T07:20:07Z) - Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。