論文の概要: StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
- arxiv url: http://arxiv.org/abs/2507.05240v1
- Date: Mon, 07 Jul 2025 17:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.551124
- Title: StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling
- Title(参考訳): StreamVLN: SlowFastコンテキストモデリングによる視覚・言語ナビゲーションのストリーミング
- Authors: Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang,
- Abstract要約: 実世界の環境におけるVLN(Vision-and-Language Navigation)では、エージェントが連続的なビジュアルストリームを処理し、言語命令に基礎を置く低レイテンシでアクションを生成する必要がある。
本稿では,ストリームVLNフレームワークについて紹介する。ストリームVLNは,マルチモーダル推論をサポートするために,低速コンテキストモデリングをハイブリッドで実現する。
VLN-CEベンチマークの実験では、最先端のパフォーマンスが安定した低レイテンシで、現実のデプロイメントにおける堅牢性と効率が保証されている。
- 参考スコア(独自算出の注目度): 27.468345201477504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) in real-world settings requires agents to process continuous visual streams and generate actions with low latency grounded in language instructions. While Video-based Large Language Models (Video-LLMs) have driven recent progress, current VLN methods based on Video-LLM often face trade-offs among fine-grained visual understanding, long-term context modeling and computational efficiency. We introduce StreamVLN, a streaming VLN framework that employs a hybrid slow-fast context modeling strategy to support multi-modal reasoning over interleaved vision, language and action inputs. The fast-streaming dialogue context facilitates responsive action generation through a sliding-window of active dialogues, while the slow-updating memory context compresses historical visual states using a 3D-aware token pruning strategy. With this slow-fast design, StreamVLN achieves coherent multi-turn dialogue through efficient KV cache reuse, supporting long video streams with bounded context size and inference cost. Experiments on VLN-CE benchmarks demonstrate state-of-the-art performance with stable low latency, ensuring robustness and efficiency in real-world deployment. The project page is: \href{https://streamvln.github.io/}{https://streamvln.github.io/}.
- Abstract(参考訳): 実世界の環境におけるVLN(Vision-and-Language Navigation)では、エージェントが連続的なビジュアルストリームを処理し、言語命令に基礎を置く低レイテンシでアクションを生成する必要がある。
ビデオベース大規模言語モデル(Video-LLMs)は近年進歩しているが、ビデオ-LLMに基づく現在のVLN手法は、細粒度視覚的理解、長期コンテキストモデリング、計算効率のトレードオフに直面していることが多い。
本稿では,ストリームVLNフレームワークについて紹介する。ストリームVLNは,マルチモーダル推論をサポートするために,低速コンテキストモデリングをハイブリッドで実現する。
高速ストリーミング対話コンテキストは、アクティブ対話のスライディングウインドウを介して応答的なアクション生成を容易にし、スロー更新メモリコンテキストは、3D対応トークンプルーニング戦略を用いて歴史的視覚状態を圧縮する。
この遅い設計により、StreamVLNは効率的なKVキャッシュ再利用を通じてコヒーレントなマルチターン対話を実現し、コンテキストサイズと推論コストが制限された長いビデオストリームをサポートする。
VLN-CEベンチマークの実験では、最先端のパフォーマンスが安定した低レイテンシで、現実のデプロイメントにおける堅牢性と効率が保証されている。
プロジェクトページは以下のとおりである。
関連論文リスト
- LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval [13.891391928767195]
LiveVLMは、ストリーミング、オンラインビデオ理解、リアルタイムインタラクションに特化したトレーニング不要のフレームワークである。
LiveVLMはストリーミング指向のKVキャッシュを構築し、ビデオストリームをリアルタイムで処理し、長期のビデオの詳細を保持し、冗長なKVを排除する。
新しい質問が提案されると、LiveVLMは、短期と長期の両方の視覚情報を効率的に取得するオンラインの質問回答プロセスを導入する。
論文 参考訳(メタデータ) (2025-05-21T08:47:15Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。