論文の概要: EEA: Exploration-Exploitation Agent for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2512.03500v1
- Date: Wed, 03 Dec 2025 06:48:36 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:42.096938
- Title: EEA: Exploration-Exploitation Agent for Long Video Understanding
- Title(参考訳): EEA:ロングビデオ理解のための探索探索エージェント
- Authors: Te Yang, Xiangyu Zhu, Bo Wang, Quan Chen, Peng Jiang, Zhen Lei,
- Abstract要約: ロングフォームビデオ理解には、重要でない情報をピンポイントするために、広範囲の視覚データの効率的なナビゲーションが必要である。
ビデオ理解のロングフォーム化への現在のアプローチは、高密度な前処理による計算オーバーヘッドに悩まされるか、どちらかである。
セマンティックガイダンスを通じて探索・探索バランスをアーカイブする新しいビデオエージェントフレームワークであるEEAを紹介する。
- 参考スコア(独自算出の注目度): 24.45791994592314
- License:
- Abstract: Long-form video understanding requires efficient navigation of extensive visual data to pinpoint sparse yet critical information. Current approaches to longform video understanding either suffer from severe computational overhead due to dense preprocessing, or fail to effectively balance exploration and exploitation, resulting in incomplete information coverage and inefficiency. In this work, we introduce EEA, a novel video agent framework that archives exploration-exploitation balance through semantic guidance with hierarchical tree search process. EEA autonomously discovers and dynamically updates task-relevant semantic queries, and collects video frames closely matched to these queries as semantic anchors. During the tree search process, instead of uniform expansion, EEA preferentially explores semantically relevant frames while ensuring sufficient coverage within unknown segments. Moreover, EEA adaptively combines intrinsic rewards from visionlanguage models (VLMs) with semantic priors by explicitly modeling uncertainty to achieve stable and precise evaluation of video segments. Experiments across various long-video benchmarks validate the superior performance and computational efficiency of our proposed method.
- Abstract(参考訳): ロングフォームビデオ理解には、重要でない情報をピンポイントするために、広範囲の視覚データの効率的なナビゲーションが必要である。
ビデオ理解の長期化への現在のアプローチは、密集した前処理による厳しい計算オーバーヘッドに悩まされるか、探索とエクスプロイトの効果的なバランスが取れず、不完全な情報カバレッジと非効率をもたらす。
本研究では,階層木探索プロセスを用いた意味指導を通じて,探索・探索バランスをアーカイブする新しいビデオエージェントフレームワークであるEEAを紹介する。
EEAはタスク関連セマンティッククエリを自律的に検出し、動的に更新し、これらのクエリと密接にマッチしたビデオフレームをセマンティックアンカーとして収集する。
ツリー探索の過程では、一様拡張の代わりに、EEAは、未知のセグメント内で十分なカバレッジを確保しながら、意味的に関連するフレームを優先的に探索する。
さらに、EEAは、映像セグメントの安定的かつ正確な評価を実現するために、視覚言語モデル(VLM)の本質的な報酬を、明確に不確実性をモデル化することによって意味的先行性と適応的に結合する。
様々な長ビデオベンチマークによる実験により,提案手法の優れた性能と計算効率が検証された。
関連論文リスト
- VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。