論文の概要: Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions
- arxiv url: http://arxiv.org/abs/2604.18459v1
- Date: Mon, 20 Apr 2026 16:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.985818
- Title: Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions
- Title(参考訳): Evidence-Aligned Timing and Transparent Decisions を用いたプログレッシブオンラインビデオ理解
- Authors: Kecheng Zhang, Zongxin Yang, Mingfei Han, Haihong Hao, Yunzhi Zhuge, Changlin Li, Junhan Zhao, Zhihui Li, Xiaojun Chang,
- Abstract要約: textbfmodelは、メモリ統合から推論制御を分離するフレームワークである。
emphActive Thinking Decision Maker (ATDM)は、決定プロセスの外部化を行う透明な推論コントローラである。
emphHierarchical Progressive Semantic Integration (HPSI)モジュールは効率的なメモリシステムとして機能する。
- 参考スコア(独自算出の注目度): 75.23170605943457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual agents operating in the wild must respond to queries precisely when sufficient evidence first appears in a video stream, a critical capability that is overlooked by conventional video LLMs evaluated in offline settings. The shift to an online, streaming paradigm introduces significant challenges: a lack of decision transparency, the difficulty of aligning response timing with visual evidence, and the need to maintain a global, causally consistent understanding under tight computational budgets. To address these issues, we propose a novel framework that decouples reasoning control from memory integration. We introduce \textbf{\model{}}, an instantiation of this framework with two core components. First, the \emph{Active Thinking Decision Maker (ATDM)} is a transparent reasoning controller that externalizes its decision process using observable progress ($\boldsymbolρ$) and confidence ($\boldsymbol{c}$) metrics. This allows it to precisely time its response $t_r$ to match the first-sufficient-evidence timestamp $t^\star$ while streaming its reasoning to the user. Second, the \emph{Hierarchical Progressive Semantic Integration (HPSI)} module acts as an efficient memory system. It employs a set of learnable, multi-level aggregation tokens that are propagated across clips to build a rich, global cognitive state without exceeding token budgets. %Our approach sets a new standard on key online video understanding benchmarks, achieving strong performance of \textbf{71.6\%} on StreamingBench and \textbf{46.9\%} on OVOBench, demonstrating a robust solution for evidence-aligned and transparent online video analysis. Extensive experiments demonstrate the effectiveness of ATDM and HPSI, e.g., Thinking-QwenVL improves the accuracy of the previous state-of-the-art from 67.63\% to 71.60\% on the StreamingBench benchmark.
- Abstract(参考訳): ビデオストリームに十分な証拠が最初に現れると、野生で動作している視覚エージェントは、オフライン設定で評価される従来のビデオLLMによって見過ごされる重要な機能であるクエリに正確に応答する必要がある。
オンラインストリーミングパラダイムへの移行は、意思決定の透明性の欠如、応答タイミングと視覚的証拠の整合性の難しさ、厳密な計算予算の下でグローバルで因果的に一貫した理解を維持する必要性など、大きな課題をもたらす。
これらの問題に対処するため、メモリ統合から推論制御を分離する新しいフレームワークを提案する。
2つのコアコンポーネントによるこのフレームワークのインスタンス化である、‘textbf{\model{}}’を紹介します。
第一に、emph{Active Thinking Decision Maker (ATDM) は透明な推論コントローラで、観測可能な進捗(\boldsymbolρ$)と信頼(\boldsymbol{c}$)メトリクスを使用して意思決定プロセスを外部化する。
これにより、レスポンス $t_r$ を正確にタイムスタンプ $t^\star$ にマッチさせ、その推論をユーザーにストリーミングすることができる。
次に、emph{Hierarchical Progressive Semantic Integration (HPSI) モジュールは効率的なメモリシステムとして機能する。
学習可能な多レベルアグリゲーショントークンのセットがクリップ全体に伝播し、トークン予算を超えることなく、リッチでグローバルな認知状態を構築する。
%Ourアプローチは、主要なオンラインビデオ理解ベンチマークに新しい標準を設定し、StreamingBench上での \textbf{71.6\%} と OVOBench上での \textbf{46.9\%} の強力なパフォーマンスを達成する。
大規模な実験はATDMとHPSI、例えばThinking-QwenVLの有効性をStreamingBenchベンチマークで67.63\%から71.60\%に改善した。
関連論文リスト
- Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models [14.21980212001207]
ビデオデータのストリーミング特性に触発されて,LVLMのストリーミング推論パラダイムを2つ検討する。
ストリーミング入力の整合性を向上するために,真の並列推論を可能にする統合フレームワークである textbfThink-as-You-See (TaYS) を提案する。
論文 参考訳(メタデータ) (2026-03-03T11:24:55Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models [24.875526594002434]
長いビデオ理解シナリオのための視覚トークン選択モジュールであるQTSplusを提案する。
Qwen2.5-VLに統合され、ビジョンストリームを textbf89% まで圧縮し、長いビデオでは textbf28% でエンドツーエンドのレイテンシを低減する。
以上の結果から,QTSplusはMLLMを現実世界の長ビデオシナリオに拡張するための,効果的で汎用的なメカニズムであることが示唆された。
論文 参考訳(メタデータ) (2025-11-14T22:41:27Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。