論文の概要: Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.11896v1
- Date: Thu, 12 Mar 2026 13:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.089852
- Title: Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおけるマルチターンビデオ推論のためのオンラインストリーミングセグメンテーションレベルメモリ
- Authors: Lu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao,
- Abstract要約: Think While Watchingは、メモリアンコールされたストリーミングビデオ推論フレームワークだ。
マルチターンインタラクション中の連続セグメントレベルのメモリを保存する。
シングルラウンド精度はStreamingBenchで2.6%、OVO-Benchで3.79%向上している。
- 参考スコア(独自算出の注目度): 25.48403877647779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)はオフラインビデオ理解において高いパフォーマンスを示しているが、ほとんどがオフライン推論に限られているか、オンライン推論が弱いため、連続的に到着するビデオストリームに対するマルチターンインタラクションが困難である。
既存のストリーミング手法は通常、インターリーブされた知覚生成パラダイムを使用しており、これは同時認識と生成を防ぎ、ストリームが成長するにつれてメモリの早期劣化を招き、長距離依存性モデリングを損なう。
我々は,マルチターンインタラクション中に連続的なセグメントレベルメモリを保存する,メモリアンコール型ストリーミングビデオ推論フレームワークThink While Watchingを提案する。
我々は3段階のマルチラウンド・チェーン・オブ・シークレット・データセットを構築し、段階整合トレーニング戦略を採用しながら、セグメントレベルのストリーミング因果マスクとストリーミング位置符号化によって厳密な因果関係を強制する。
推論中に、観察と思考を重複させ、最適な注意のバックエンドを適応的に選択する効率的なパイプラインを導入します。
シングルラウンドおよびマルチラウンドのストリーミング入力プロトコルにおいて,本手法は高い結果が得られる。
Qwen3-VLをベースに構築され、StreamingBenchでは2.6%、OVO-Benchでは3.79%の精度向上を実現している。
マルチラウンド設定では、出力トークンを56%削減しながらパフォーマンスを維持する。
https://github.com/wl666hhh/Think_While_Watching/
関連論文リスト
- Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously [69.0264594684213]
Video Streaming Thinking (VST) はビデオ理解のための新しいパラダイムである。
ストリーミング中のビデオクリップの推論を起動するメカニズムを視聴しながら思考をサポートする。
VSTはリアルタイム応答性を維持しながら、タイムリーな理解とコヒーレント認知を改善する。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models [14.21980212001207]
ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークである textbfThink-as-You-See (TaYS) を提案する。
論文 参考訳(メタデータ) (2026-03-03T11:24:55Z) - Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams [11.495597616926274]
Event-VStreamは、連続した動画を、個別にセマンティックに一貫性のあるイベントのシーケンスとして表現する。
システムは、動き、意味、予測的手がかりを統合することで意味のある状態遷移を検出する。
システムは2時間のEgo4Dストリームで約70%のGPT-5の勝利率を維持している。
論文 参考訳(メタデータ) (2026-01-22T05:05:53Z) - Speak While Watching: Unleashing TRUE Real-Time Video Understanding Capability of Multimodal Large Language Models [15.345320064963575]
MLLM(Multimodal Large Language Models)は多くのタスクで高いパフォーマンスを実現しているが、ほとんどのシステムはオフライン推論に限られている。
最近のストリーミング手法は、知覚と生成をインターリーブすることでレイテンシを低減するが、それでもシーケンシャルな知覚生成サイクルを強制する。
本稿では,3つの設計(オーバーラップ,グループ分離,ギャップ分離)により位置連続性を緩和する並列ストリーミングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-11T10:12:11Z) - StreamingAssistant: Efficient Visual Token Pruning for Accelerating Online Video Understanding [29.539015046656615]
重要な情報を保持しつつコンテキスト長を削減する手段としてトークンプルーニングを提案する。
具体的には、空間隣接ビデオトークン(MSSAVT)に対する最大類似性という新しい冗長度指標を導入する。
マスク付きプルーニング戦略も設計し、互いに不適切なトークンがプルーニングされることを保証します。
論文 参考訳(メタデータ) (2025-12-14T05:35:11Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。