論文の概要: EEA: Exploration-Exploitation Agent for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2512.03500v1
- Date: Wed, 03 Dec 2025 06:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:55.163796
- Title: EEA: Exploration-Exploitation Agent for Long Video Understanding
- Title(参考訳): EEA:ロングビデオ理解のための探索探索エージェント
- Authors: Te Yang, Xiangyu Zhu, Bo Wang, Quan Chen, Peng Jiang, Zhen Lei,
- Abstract要約: ロングフォームビデオ理解には、重要でない情報をピンポイントするために、広範囲の視覚データの効率的なナビゲーションが必要である。
ビデオ理解のロングフォーム化への現在のアプローチは、高密度な前処理による計算オーバーヘッドに悩まされるか、どちらかである。
セマンティックガイダンスを通じて探索・探索バランスをアーカイブする新しいビデオエージェントフレームワークであるEEAを紹介する。
- 参考スコア(独自算出の注目度): 24.45791994592314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video understanding requires efficient navigation of extensive visual data to pinpoint sparse yet critical information. Current approaches to longform video understanding either suffer from severe computational overhead due to dense preprocessing, or fail to effectively balance exploration and exploitation, resulting in incomplete information coverage and inefficiency. In this work, we introduce EEA, a novel video agent framework that archives exploration-exploitation balance through semantic guidance with hierarchical tree search process. EEA autonomously discovers and dynamically updates task-relevant semantic queries, and collects video frames closely matched to these queries as semantic anchors. During the tree search process, instead of uniform expansion, EEA preferentially explores semantically relevant frames while ensuring sufficient coverage within unknown segments. Moreover, EEA adaptively combines intrinsic rewards from visionlanguage models (VLMs) with semantic priors by explicitly modeling uncertainty to achieve stable and precise evaluation of video segments. Experiments across various long-video benchmarks validate the superior performance and computational efficiency of our proposed method.
- Abstract(参考訳): ロングフォームビデオ理解には、重要でない情報をピンポイントするために、広範囲の視覚データの効率的なナビゲーションが必要である。
ビデオ理解の長期化への現在のアプローチは、密集した前処理による厳しい計算オーバーヘッドに悩まされるか、探索とエクスプロイトの効果的なバランスが取れず、不完全な情報カバレッジと非効率をもたらす。
本研究では,階層木探索プロセスを用いた意味指導を通じて,探索・探索バランスをアーカイブする新しいビデオエージェントフレームワークであるEEAを紹介する。
EEAはタスク関連セマンティッククエリを自律的に検出し、動的に更新し、これらのクエリと密接にマッチしたビデオフレームをセマンティックアンカーとして収集する。
ツリー探索の過程では、一様拡張の代わりに、EEAは、未知のセグメント内で十分なカバレッジを確保しながら、意味的に関連するフレームを優先的に探索する。
さらに、EEAは、映像セグメントの安定的かつ正確な評価を実現するために、視覚言語モデル(VLM)の本質的な報酬を、明確に不確実性をモデル化することによって意味的先行性と適応的に結合する。
様々な長ビデオベンチマークによる実験により,提案手法の優れた性能と計算効率が検証された。
関連論文リスト
- Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search [61.88597038104749]
我々は,コヒーレントかつ包括的推論を可能にする,長時間ビデオ理解のための統一的なフレームワークであるHAVENを提案する。
視覚ストリームと聴覚ストリームをまたいだエンティティレベルの表現を統合することで、セマンティック一貫性を維持する。
これらの層にまたがる動的検索と推論を可能にするためにエージェント検索機構を用いる。
論文 参考訳(メタデータ) (2026-01-20T08:23:29Z) - SeViCES: Unifying Semantic-Visual Evidence Consensus for Long Video Understanding [36.30263540665245]
本稿では,効果的で信頼性の高いロングビデオ理解のためのフレームワークを提案する。
SeViCESはトレーニング不要でモデルに依存しない2つの重要なコンポーネントを導入している。
長いビデオ理解ベンチマークの実験によると、SeViCESは精度と堅牢性の両方で最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-23T14:55:28Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead [4.55107996328448]
Ahaは、自然言語で記述されたタスクに対する各ビデオフレームの関連性を予測する自動回帰ハイライト検出フレームワークである。
Ahaはハイライト検出ベンチマークで最先端(SOTA)のパフォーマンスを達成する。
我々は、タスク指向の自然言語入力と連続ロボット中心のビデオが与えられた現実世界のロボティクスアプリケーションに対するAhaの可能性を探求する。
論文 参考訳(メタデータ) (2025-09-19T21:03:00Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。