論文の概要: StreamOV: Streaming Omni-Video Understanding via Evidence-Guided Memory and Response Triggering
- arxiv url: http://arxiv.org/abs/2605.25621v1
- Date: Mon, 25 May 2026 09:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.547124
- Title: StreamOV: Streaming Omni-Video Understanding via Evidence-Guided Memory and Response Triggering
- Title(参考訳): StreamOV:Evidence-Guided Memory and Response TriggeringによるOmni-Video理解のストリーミング
- Authors: Ming Xie, Zizheng Huang, Xudong Tan, Chao Wang, Xiangyu Zeng, Wenxiao Wu, Tao Chen, Limin Wang, Yanwei Fu,
- Abstract要約: StreamOVは、バウンドメモリとプロアクティブ応答トリガを備えた効率的なオンラインオーディオ視覚推論のための、新しいStreaming Omni-Video理解フレームワークである。
応答のタイミングを決定するために、隠れ状態駆動のトリガーを使用しており、明示的なサイレントトーケン生成と外部ルータを避けている。
さまざまなストリーミングとビデオのベンチマークで最先端のパフォーマンスを実現し、オンラインとオフラインの両方のビデオ理解に有効であることを実証している。
- 参考スコア(独自算出の注目度): 39.92453666681465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While streaming omni-video understanding demands continuous perception and proactive, real-time interaction, this crucial area remains largely under-explored. Current omni-modal methods are inherently designed for offline settings, limiting their applicability in streaming scenarios due to two fundamental flaws. First, they lack robust mechanisms to manage continuously growing audio-visual context over long horizons and cannot autonomously initiate responses at opportune moments. Second, existing benchmarks are predominantly confined to offline, single-turn question answering, failing to capture continuous, multi-turn streaming interactions. To bridge these gaps, we propose StreamOV, a novel Streaming Omni-Video understanding framework for efficient online audio-visual reasoning with bounded memory and proactive response triggering. Specifically, StreamOV introduces a multimodal evidence-guided long-short term memory that condenses historical audio-visual context into compact informative evidence under a fixed budget. It further employs a hidden-state-driven trigger to decide when to respond, avoiding explicit silence-token generation and external routers. We also curate SOVBench, the first comprehensive benchmark for online, multi-turn omni-modal evaluation. Extensive experiments show that StreamOV achieves state-of-the-art performance across diverse streaming and omni-video benchmarks, demonstrating its effectiveness for both online and offline video understanding.
- Abstract(参考訳): ストリーミング・オムニ・ビデオの理解には、継続的な知覚と積極的なリアルタイムの相互作用が要求されるが、この重要な領域は未探索のままである。
現在のOmni-Modalメソッドは、本質的にオフライン設定用に設計されており、2つの根本的な欠陥のためにストリーミングシナリオにおける適用性を制限している。
まず、長い地平線上で連続的に成長するオーディオ視覚コンテキストを管理するための堅牢なメカニズムが欠如しており、不透明な瞬間に自律的に応答を開始することができない。
第二に、既存のベンチマークは、主にオフラインでシングルターンの質問応答に限られており、連続したマルチターンのストリーミングインタラクションをキャプチャできない。
このギャップを埋めるため,拘束メモリとプロアクティブ応答トリガを用いた効率的なオンライン音声視覚推論のための,新しいストリームオムニビデオ理解フレームワークStreamOVを提案する。
具体的には、StreamOVは、歴史的オーディオ視覚コンテキストを固定予算の下でコンパクトな情報的証拠に凝縮するマルチモーダルなエビデンス誘導長短メモリを導入している。
さらに、いつ応答するかを判断するために、隠れ状態駆動のトリガーを採用し、明示的なサイレントトーケン生成と外部ルータを避ける。
また、オンラインマルチターンオムニモーダル評価のための初の総合的なベンチマークであるSOVBenchをキュレートする。
大規模な実験により、StreamOVはさまざまなストリーミングとビデオのベンチマークで最先端のパフォーマンスを達成し、オンラインとオフラインの両方のビデオ理解に有効であることを実証した。
関連論文リスト
- AURA: Always-On Understanding and Real-Time Assistance via Video Streams [37.80002196035961]
AURA(Always-On Understanding and Real-Time Assistance)は、エンドツーエンドのストリーミングビジュアルインタラクションフレームワークである。
これにより、統合されたVideoLLMがビデオストリームを継続的に処理し、リアルタイムの質問応答とプロアクティブ応答の両方をサポートする。
AURAはストリーミングベンチマークで最先端のパフォーマンスを実現し、2つの80Gアクセラレータ上で2FPSで動作するASRとTSを備えたリアルタイムデモシステムをサポートする。
論文 参考訳(メタデータ) (2026-04-05T16:53:46Z) - Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously [69.0264594684213]
Video Streaming Thinking (VST) はビデオ理解のための新しいパラダイムである。
ストリーミング中のビデオクリップの推論を起動するメカニズムを視聴しながら思考をサポートする。
VSTはリアルタイム応答性を維持しながら、タイムリーな理解とコヒーレント認知を改善する。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding [32.72568710955575]
本稿では,実時間オムニ・マルチモーダル・アシスタントであるROMAについて述べる。
ROMAは連続的な入力を同期マルチモーダル単位として処理し、密度の高いオーディオを離散ビデオフレームと整列させて粒度のミスマッチを処理する。
オンライン意思決定では、応答開始を生成から切り離して正確なトリガーを確実にする軽量なスポークヘッドを導入する。
論文 参考訳(メタデータ) (2026-01-15T12:09:04Z) - Streaming Video Instruction Tuning [36.380564553367954]
本稿では、汎用対話型アシスタントとして機能するリアルタイムストリーミングビデオLLMであるStreamoを紹介する。
Streamoは、リアルタイムナレーション、アクション理解、イベントキャプション、時間的イベントグラウンド、時間に敏感な質問応答など、幅広いストリーミングビデオタスクを実行する。
論文 参考訳(メタデータ) (2025-12-24T18:59:36Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos [47.91239059703758]
TimeChat-Onlineは、リアルタイムビデオインタラクションに革命をもたらすオンラインビデオLLMである。
我々の微分トークンドロップ(DTD)モジュールは、ストリーミングビデオにおける視覚的冗長性の課題に対処します。
実験により、DTDはビデオトークンの82.8%の削減を実現し、StreamingBenchでは98%のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2025-04-24T07:59:46Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。