論文の概要: Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
- arxiv url: http://arxiv.org/abs/2512.05774v1
- Date: Fri, 05 Dec 2025 15:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.072061
- Title: Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
- Title(参考訳): アクティブビデオ認識: エージェントビデオ理解のための反復的エビデンス探索
- Authors: Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, Juan Carlos Niebles,
- Abstract要約: LVU(Long Video Understanding)は、現実のクエリに答えることが、数時間の計算時間内に埋められた、時間的に分散されたキューと無関係なコンテンツに依存するため、難しい。
我々は,映像をインタラクティブな環境として扱うエビデンス検索フレームワークであるActive Video Perception(AVP)を,画素から直接クエリ関連エビデンスを取得する。
- 参考スコア(独自算出の注目度): 139.83981719664794
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Long video understanding (LVU) is challenging because answering real-world queries often depends on sparse, temporally dispersed cues buried in hours of mostly redundant and irrelevant content. While agentic pipelines improve video reasoning capabilities, prevailing frameworks rely on a query-agnostic captioner to perceive video information, which wastes computation on irrelevant content and blurs fine-grained temporal and spatial information. Motivated by active perception theory, we argue that LVU agents should actively decide what, when, and where to observe, and continuously assess whether the current observation is sufficient to answer the query. We present Active Video Perception (AVP), an evidence-seeking framework that treats the video as an interactive environment and acquires compact, queryrelevant evidence directly from pixels. Concretely, AVP runs an iterative plan-observe-reflect process with MLLM agents. In each round, a planner proposes targeted video interactions, an observer executes them to extract time-stamped evidence, and a reflector evaluates the sufficiency of the evidence for the query, either halting with an answer or triggering further observation. Across five LVU benchmarks, AVP achieves highest performance with significant improvements. Notably, AVP outperforms the best agentic method by 5.7% in average accuracy while only requires 18.4% inference time and 12.4% input tokens.
- Abstract(参考訳): LVU(Long Video Understanding)は、現実のクエリに答えることがしばしばスパースに依存し、時間的に分散されたキューが、ほとんど冗長で無関係な内容の時間内に埋もれているため、難しい。
エージェントパイプラインはビデオ推論機能を改善する一方、一般的なフレームワークはクエリに依存しないキャプタを使ってビデオ情報を知覚し、無関係なコンテンツに対する計算を無駄にし、微細な時間的・空間的な情報をぼかす。
アクティブな知覚理論によって動機づけられたLVUエージェントは、いつ、いつ、どこで観察するかを積極的に決定し、現在の観察がクエリに答えるに十分かどうかを継続的に評価すべきである、と論じる。
本稿では,映像をインタラクティブな環境として扱うエビデンス検索フレームワークであるActive Video Perception(AVP)について述べる。
具体的には、AVPはMLLMエージェントで反復的なプラン・オブザーバ・リフレクトプロセスを実行する。
各ラウンドにおいて、プランナーがターゲットとなるビデオインタラクションを提案し、オブザーバがそれらを実行してタイムスタンプされた証拠を抽出し、リフレクタが質問に対する証拠の十分性を評価する。
5つのLVUベンチマークで、AVPは高いパフォーマンスと大幅な改善を達成している。
AVPは平均精度が5.7%向上し、18.4%の推論時間と12.4%の入力トークンしか必要としない。
関連論文リスト
- EEA: Exploration-Exploitation Agent for Long Video Understanding [24.45791994592314]
ロングフォームビデオ理解には、重要でない情報をピンポイントするために、広範囲の視覚データの効率的なナビゲーションが必要である。
ビデオ理解のロングフォーム化への現在のアプローチは、高密度な前処理による計算オーバーヘッドに悩まされるか、どちらかである。
セマンティックガイダンスを通じて探索・探索バランスをアーカイブする新しいビデオエージェントフレームワークであるEEAを紹介する。
論文 参考訳(メタデータ) (2025-12-03T06:48:36Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - VIBE: Annotation-Free Video-to-Text Information Bottleneck Evaluation for TL;DR [23.144642468756032]
現在の視覚言語モデル(VLM)は冗長で冗長な出力を生成し、タスクのパフォーマンスを阻害する。
既存のビデオキャプション評価は、コストのかかる人間のアノテーションに依存し、下流タスクにおける要約の実用性を見落としている。
VIBEは2つのメトリクスを使ってVLM出力をスコア付けする。
VIBEは、ランダムにサンプリングされたVLM出力から、2つのスコアにランク付けして、効果的な人的意思決定を支援する。
論文 参考訳(メタデータ) (2025-05-23T03:11:29Z) - Query-Dependent Video Representation for Moment Retrieval and Highlight
Detection [8.74967598360817]
MR/HDの主な目的は、あるテキストクエリに対して、モーメントをローカライズし、クリップワイドアコーディネートレベル、すなわち、サリエンシスコアを推定することである。
最近のトランスフォーマーベースのモデルは、与えられたクエリの情報を完全に活用していない。
本稿ではMR/HDに適した検出変換器であるQuery-Dependent DETR(QD-DETR)を紹介する。
論文 参考訳(メタデータ) (2023-03-24T09:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。