論文の概要: VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT
- arxiv url: http://arxiv.org/abs/2504.04471v1
- Date: Sun, 06 Apr 2025 13:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:26.766967
- Title: VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT
- Title(参考訳): VideoAgent2:不確かさを意識したCoTによる長時間ビデオ理解のためのLLMエージェントシステムの強化
- Authors: Zhuo Zhi, Qiangqiang Wu, Minghe shen, Wenbo Li, Yinchuan Li, Kun Shao, Kaiwen Zhou,
- Abstract要約: 本稿では,長時間のビデオ解析に適した特別なチェーン・オブ・シント(CoT)プロセスを提案する。
我々の不確実性を認識したCoTは、外部ツールからのノイズを効果的に軽減し、より信頼性の高い出力を生み出します。
我々は、一般的なコンテキスト取得や特殊なツール設計などの追加モジュールを含むVideoAgent2というシステムで、我々のアプローチを実装している。
- 参考スコア(独自算出の注目度): 31.413204839972984
- License:
- Abstract: Long video understanding has emerged as an increasingly important yet challenging task in computer vision. Agent-based approaches are gaining popularity for processing long videos, as they can handle extended sequences and integrate various tools to capture fine-grained information. However, existing methods still face several challenges: (1) they often rely solely on the reasoning ability of large language models (LLMs) without dedicated mechanisms to enhance reasoning in long video scenarios; and (2) they remain vulnerable to errors or noise from external tools. To address these issues, we propose a specialized chain-of-thought (CoT) process tailored for long video analysis. Our proposed CoT with plan-adjust mode enables the LLM to incrementally plan and adapt its information-gathering strategy. We further incorporate heuristic uncertainty estimation of both the LLM and external tools to guide the CoT process. This allows the LLM to assess the reliability of newly collected information, refine its collection strategy, and make more robust decisions when synthesizing final answers. Empirical experiments show that our uncertainty-aware CoT effectively mitigates noise from external tools, leading to more reliable outputs. We implement our approach in a system called VideoAgent2, which also includes additional modules such as general context acquisition and specialized tool design. Evaluation on three dedicated long video benchmarks (and their subsets) demonstrates that VideoAgent2 outperforms the previous state-of-the-art agent-based method, VideoAgent, by an average of 13.1% and achieves leading performance among all zero-shot approaches
- Abstract(参考訳): 長いビデオ理解は、コンピュータビジョンにおいてますます重要で難しい課題として現れてきた。
エージェントベースのアプローチは、長いビデオを処理するために人気を集めている。
しかし,既存の手法では,(1)大規模言語モデル(LLM)の推論能力にのみ依存することが多く,(2)外部ツールのエラーやノイズに弱いままである。
これらの問題に対処するために、長いビデオ分析に適した特別なチェーン・オブ・ソート(CoT)プロセスを提案する。
提案した計画調整モードのCoTにより,LLMは情報収集戦略を段階的に計画し,適応することができる。
さらに,LLMと外部ツールのヒューリスティックな不確実性評価を取り入れて,CoTプロセスの導出を行う。
これにより、LLMは、新たに収集された情報の信頼性を評価し、収集戦略を洗練し、最終回答を合成する際により堅牢な決定を行うことができる。
実証実験により、我々の不確実性を認識したCoTは、外部ツールからのノイズを効果的に軽減し、より信頼性の高い出力をもたらすことが示された。
我々は、一般的なコンテキスト取得や特殊なツール設計などの追加モジュールを含むVideoAgent2というシステムで、我々のアプローチを実装している。
3つの専用長ビデオベンチマーク(およびそのサブセット)の評価は、VideoAgent2が従来の最先端のエージェントベースのメソッドであるVideoAgentを平均13.1%上回り、ゼロショットアプローチで主要なパフォーマンスを達成していることを示している。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。
我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。
自律推論が可能なDivide-and-Conquer Loopを備えている。
より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文 参考訳(メタデータ) (2024-06-24T13:05:39Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding [28.316828641898375]
VideoAgent: 1)は、一般的な時間的イベント記述と、ビデオのオブジェクト中心のトラッキング状態の両方を格納する構造化メモリを構築する。
2) 入力タスククエリが与えられた場合,ビデオセグメントのローカライゼーションやオブジェクトメモリクエリなどのツールと,他の視覚基盤モデルを用いて対話的にタスクを解く。
論文 参考訳(メタデータ) (2024-03-18T05:07:59Z) - VideoAgent: Long-form Video Understanding with Large Language Model as Agent [26.903040507914053]
本稿では,大規模言語モデルを中心的エージェントとして利用して,重要な情報を特定し,コンパイルして質問に答える,新たなエージェントベースシステムであるVideoAgentを紹介する。
本研究では,現在の最先端手法よりも優れた手法の有効性と効率性を示す。
論文 参考訳(メタデータ) (2024-03-15T17:57:52Z) - Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。
LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。
これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文 参考訳(メタデータ) (2024-02-09T18:19:25Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。