論文の概要: LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents
- arxiv url: http://arxiv.org/abs/2503.10200v1
- Date: Thu, 13 Mar 2025 09:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:55.928936
- Title: LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents
- Title(参考訳): LVAgent:MLLMエージェントのマルチラウンド動的協調による長時間ビデオ理解
- Authors: Boyu Chen, Zhengrong Yue, Siran Chen, Zikang Wang, Yang Liu, Peng Li, Yali Wang,
- Abstract要約: LVAgentは,MLLMエージェントの長時間映像理解におけるマルチラウンド動的協調を実現するフレームワークである。
提案手法は,選択,知覚,行動,反射の4つの重要なステップから構成される。
LVAgentは4つのメインストリームビデオ理解タスクにおいて80%の精度を実現している。
- 参考スコア(独自算出の注目度): 18.580893774836845
- License:
- Abstract: Existing Multimodal Large Language Models (MLLMs) encounter significant challenges in modeling the temporal context within long videos. Currently, mainstream Agent-based methods use external tools (e.g., search engine, memory banks, OCR, retrieval models) to assist a single MLLM in answering long video questions. Despite such tool-based support, a solitary MLLM still offers only a partial understanding of long videos, resulting in limited performance. In order to better address long video tasks, we introduce LVAgent, the first framework enabling multi-round dynamic collaboration of MLLM agents in long video understanding. Our methodology consists of four key steps: 1. Selection: We pre-select appropriate agents from the model library to form optimal agent teams based on different tasks. 2. Perception: We design an effective retrieval scheme for long videos, improving the coverage of critical temporal segments while maintaining computational efficiency. 3. Action: Agents answer long video-related questions and exchange reasons. 4. Reflection: We evaluate the performance of each agent in each round of discussion and optimize the agent team for dynamic collaboration. The agents iteratively refine their answers by multi-round dynamical collaboration of MLLM agents. LVAgent is the first agent system method that outperforms all closed-source models (including GPT-4o) and open-source models (including InternVL-2.5 and Qwen2-VL) in the long video understanding tasks. Our LVAgent achieves an accuracy of 80% on four mainstream long video understanding tasks. Notably, on the LongVideoBench dataset, LVAgent improves accuracy by up to 14.3% compared with SOTA.
- Abstract(参考訳): 既存のMLLM(Multimodal Large Language Models)は、長いビデオ内の時間的コンテキストをモデル化する上で大きな課題に直面する。
現在、メインストリームのエージェントベースのメソッドでは、外部ツール(検索エンジン、メモリバンク、OCR、検索モデルなど)を使用して、長いビデオ質問に答えるために単一のMLLMを支援している。
このようなツールベースのサポートにもかかわらず、単独のMLLMは長いビデオの部分的な理解しか提供していないため、パフォーマンスは限られている。
LVAgent(LVAgent)は,MLLMエージェントの長時間映像理解におけるマルチラウンド動的協調を実現する最初のフレームワークである。
私たちの方法論は4つの重要なステップから構成されています。
1. 選択: モデルライブラリから適切なエージェントを選択し、異なるタスクに基づいて最適なエージェントチームを形成する。
2. 知覚: 長いビデオの効率的な検索手法を設計し, 計算効率を維持しつつ, 臨界時間セグメントのカバレッジを向上する。
3.アクション: エージェントは、長いビデオ関連の質問に答え、理由を交換する。
4. 振り返り: 各議論における各エージェントのパフォーマンスを評価し,動的コラボレーションのためにエージェントチームを最適化する。
エージェントはMLLMエージェントのマルチラウンド動的協調により、回答を反復的に洗練する。
LVAgentは、長いビデオ理解タスクにおいて、すべてのクローズドソースモデル(GPT-4oを含む)とオープンソースモデル(InternVL-2.5やQwen2-VLを含む)を上回った最初のエージェントシステムである。
LVAgentは4つのメインストリームビデオ理解タスクにおいて80%の精度を実現している。
特に、LongVideoBenchデータセットでは、SOTAと比較して、LVAgentは14.3%の精度向上を実現している。
関連論文リスト
- MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding [28.316828641898375]
VideoAgent: 1)は、一般的な時間的イベント記述と、ビデオのオブジェクト中心のトラッキング状態の両方を格納する構造化メモリを構築する。
2) 入力タスククエリが与えられた場合,ビデオセグメントのローカライゼーションやオブジェクトメモリクエリなどのツールと,他の視覚基盤モデルを用いて対話的にタスクを解く。
論文 参考訳(メタデータ) (2024-03-18T05:07:59Z) - Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。