論文の概要: VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT
- arxiv url: http://arxiv.org/abs/2504.04471v1
- Date: Sun, 06 Apr 2025 13:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 01:25:52.112935
- Title: VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT
- Title(参考訳): VideoAgent2:不確かさを意識したCoTによる長時間ビデオ理解のためのLLMエージェントシステムの強化
- Authors: Zhuo Zhi, Qiangqiang Wu, Minghe shen, Wenbo Li, Yinchuan Li, Kun Shao, Kaiwen Zhou,
- Abstract要約: 本稿では,長時間のビデオ解析に適した特別なチェーン・オブ・シント(CoT)プロセスを提案する。
我々の不確実性を認識したCoTは、外部ツールからのノイズを効果的に軽減し、より信頼性の高い出力を生み出します。
我々は、一般的なコンテキスト取得や特殊なツール設計などの追加モジュールを含むVideoAgent2というシステムで、我々のアプローチを実装している。
- 参考スコア(独自算出の注目度): 31.413204839972984
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long video understanding has emerged as an increasingly important yet challenging task in computer vision. Agent-based approaches are gaining popularity for processing long videos, as they can handle extended sequences and integrate various tools to capture fine-grained information. However, existing methods still face several challenges: (1) they often rely solely on the reasoning ability of large language models (LLMs) without dedicated mechanisms to enhance reasoning in long video scenarios; and (2) they remain vulnerable to errors or noise from external tools. To address these issues, we propose a specialized chain-of-thought (CoT) process tailored for long video analysis. Our proposed CoT with plan-adjust mode enables the LLM to incrementally plan and adapt its information-gathering strategy. We further incorporate heuristic uncertainty estimation of both the LLM and external tools to guide the CoT process. This allows the LLM to assess the reliability of newly collected information, refine its collection strategy, and make more robust decisions when synthesizing final answers. Empirical experiments show that our uncertainty-aware CoT effectively mitigates noise from external tools, leading to more reliable outputs. We implement our approach in a system called VideoAgent2, which also includes additional modules such as general context acquisition and specialized tool design. Evaluation on three dedicated long video benchmarks (and their subsets) demonstrates that VideoAgent2 outperforms the previous state-of-the-art agent-based method, VideoAgent, by an average of 13.1% and achieves leading performance among all zero-shot approaches
- Abstract(参考訳): 長いビデオ理解は、コンピュータビジョンにおいてますます重要で難しい課題として現れてきた。
エージェントベースのアプローチは、長いビデオを処理するために人気を集めている。
しかし,既存の手法では,(1)大規模言語モデル(LLM)の推論能力にのみ依存することが多く,(2)外部ツールのエラーやノイズに弱いままである。
これらの問題に対処するために、長いビデオ分析に適した特別なチェーン・オブ・ソート(CoT)プロセスを提案する。
提案した計画調整モードのCoTにより,LLMは情報収集戦略を段階的に計画し,適応することができる。
さらに,LLMと外部ツールのヒューリスティックな不確実性評価を取り入れて,CoTプロセスの導出を行う。
これにより、LLMは、新たに収集された情報の信頼性を評価し、収集戦略を洗練し、最終回答を合成する際により堅牢な決定を行うことができる。
実証実験により、我々の不確実性を認識したCoTは、外部ツールからのノイズを効果的に軽減し、より信頼性の高い出力をもたらすことが示された。
我々は、一般的なコンテキスト取得や特殊なツール設計などの追加モジュールを含むVideoAgent2というシステムで、我々のアプローチを実装している。
3つの専用長ビデオベンチマーク(およびそのサブセット)の評価は、VideoAgent2が従来の最先端のエージェントベースのメソッドであるVideoAgentを平均13.1%上回り、ゼロショットアプローチで主要なパフォーマンスを達成していることを示している。
関連論文リスト
- Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents [18.580893774836845]
LVAgentは,MLLMエージェントの長時間映像理解におけるマルチラウンド動的協調を実現するフレームワークである。
提案手法は,選択,知覚,行動,反射の4つの重要なステップから構成される。
LVAgentは4つのメインストリームビデオ理解タスクにおいて80%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-13T09:35:09Z) - Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework [23.42251949130555]
マルチモーダル大言語モデル (MLLM) は視覚的質問応答 (VQA) のようなタスクにおいて有望であることを示す
最近の研究は、パフォーマンスを改善するためにエージェントフレームワークやチェーン・オブ・思想(CoT)の推論に適応しています。
本稿では,学習自由なマルチモーダル推論フレームワークであるSeeing and Reasoning with Confidence (SRICE)を提案する。
論文 参考訳(メタデータ) (2025-03-11T11:18:53Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。
我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。
自律推論が可能なDivide-and-Conquer Loopを備えている。
より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文 参考訳(メタデータ) (2024-06-24T13:05:39Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding [28.316828641898375]
VideoAgent: 1)は、一般的な時間的イベント記述と、ビデオのオブジェクト中心のトラッキング状態の両方を格納する構造化メモリを構築する。
2) 入力タスククエリが与えられた場合,ビデオセグメントのローカライゼーションやオブジェクトメモリクエリなどのツールと,他の視覚基盤モデルを用いて対話的にタスクを解く。
論文 参考訳(メタデータ) (2024-03-18T05:07:59Z) - VideoAgent: Long-form Video Understanding with Large Language Model as Agent [26.903040507914053]
本稿では,大規模言語モデルを中心的エージェントとして利用して,重要な情報を特定し,コンパイルして質問に答える,新たなエージェントベースシステムであるVideoAgentを紹介する。
本研究では,現在の最先端手法よりも優れた手法の有効性と効率性を示す。
論文 参考訳(メタデータ) (2024-03-15T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。