Fugu-MT 論文翻訳(概要): LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents

論文の概要: LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents

arxiv url: http://arxiv.org/abs/2503.10200v4
Date: Thu, 17 Jul 2025 03:55:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-18 11:36:41.064959
Title: LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents
Title（参考訳）: LVAgent:MLLMエージェントのマルチラウンド動的協調による長時間ビデオ理解
Authors: Boyu Chen, Zhengrong Yue, Siran Chen, Zikang Wang, Yang Liu, Peng Li, Yali Wang,
Abstract要約: 既存のMLLMは、長いビデオ内の時間的コンテキストをモデル化する上で大きな課題に直面している。 LVAgentはMLLMエージェントのマルチラウンド動的協調を長時間ビデオ理解で実現した最初のフレームワークである。 LVAgentは4つのメインストリームビデオ理解タスクにおいて80%の精度を実現している。
参考スコア（独自算出の注目度）: 18.580893774836845
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing MLLMs encounter significant challenges in modeling the temporal context within long videos. Currently, mainstream Agent-based methods use external tools to assist a single MLLM in answering long video questions. Despite such tool-based support, a solitary MLLM still offers only a partial understanding of long videos, resulting in limited performance. In order to better address long video tasks, we introduce LVAgent, the first framework enabling multi-round dynamic collaboration of MLLM agents in long video understanding. Our method consists of four key steps: 1) Selection: We pre-select appropriate agents from the model library to form optimal agent teams based on different tasks. 2) Perception: We design an effective retrieval scheme for long videos to improve the coverage of critical temporal segments while maintaining computational efficiency. 3) Action: Agents answer long video questions and exchange reasons. 4) Reflection: We evaluate each agent's performance in each round of discussion and optimize the agent team for dynamic collaboration. The agents iteratively refine their answers by multi-round dynamical collaboration of MLLM agents. LVAgent is the first agent system method that outperforms all closed-source models (like GPT-4o) and open-source models (like InternVL-2.5 and Qwen2-VL) in the long video understanding tasks. Our LVAgent achieves an accuracy of 80\% on four mainstream long video understanding tasks. Notably, LVAgent improves accuracy by 13.3\% on LongVideoBench. Code is available at https://github.com/64327069/LVAgent.
Abstract（参考訳）: 既存のMLLMは、長いビデオ内の時間的コンテキストをモデル化する上で大きな課題に直面している。現在、メインストリームのエージェントベースのメソッドは、単一のMLLMが長いビデオ質問に答えるのを支援するために外部ツールを使用している。このようなツールベースのサポートにもかかわらず、単独のMLLMは長いビデオの部分的な理解しか提供していないため、パフォーマンスは限られている。 LVAgent(LVAgent)は,MLLMエージェントの長時間映像理解におけるマルチラウンド動的協調を実現する最初のフレームワークである。提案手法は,4つのステップから構成される。 1)選択: モデルライブラリから適切なエージェントを選択し、異なるタスクに基づいて最適なエージェントチームを形成する。 2)知覚: 計算効率を保ちながら, 重要な時間セグメントのカバレッジを向上させるために, 長編ビデオの効率的な検索手法を設計する。 3)アクション: エージェントは長いビデオ質問に回答し、理由を交換する。 4) 振り返り: 各議論において各エージェントのパフォーマンスを評価し,動的コラボレーションのためにエージェントチームを最適化する。エージェントはMLLMエージェントのマルチラウンド動的協調により、回答を反復的に洗練する。 LVAgentは、長いビデオ理解タスクにおいて、すべてのクローズドソースモデル(GPT-4oなど)とオープンソースモデル(InternVL-2.5やQwen2-VLなど)より優れている最初のエージェントシステムである。 LVAgentは4つのメインストリームビデオ理解タスクにおいて80%の精度を実現している。特に、LongVideoBenchでは、LVAgentの精度が13.3\%向上している。コードはhttps://github.com/64327069/LVAgent.comで入手できる。

関連論文リスト

VideoDeepResearch: Long Video Understanding With Agentic Tool Using [62.266123635522405]
LVU(Long Video Understanding)は、現在のマルチモーダル大言語モデル(MLLM)において重要な課題である。本稿では,ビデオ理解のための新しいエージェントフレームワークであるVideoDeepResearchを紹介する。各LVUタスクに対して、ツールは推論を通じて問題解決戦略を定式化し、ツール使用による必須映像コンテンツへのアクセスと活用を選択的に行う。
論文参考訳（メタデータ） (2025-06-12T15:39:10Z)
ViQAgent: Zero-Shot Video Question Answering via Agent with Open-Vocabulary Grounding Validation [49.1574468325115]
本研究は、ゼロショットビデオ質問応答(VideoQA)のためのLCMブラインドエージェントを提案する。 Chain-of-Thoughtフレームワークと、YOLO-Worldと組み合わせて、オブジェクトのトラッキングとアライメントを強化する。このアプローチは、NExT-QA、iVQA、ActivityNet-QAベンチマークのパフォーマンスを向上した、ビデオQAおよびビデオ理解における新しい最先端技術を確立する。
論文参考訳（メタデータ） (2025-05-21T18:32:43Z)
VideoAgent2: Enhancing the LLM-Based Agent System for Long-Form Video Understanding by Uncertainty-Aware CoT [31.413204839972984]
本稿では,長時間のビデオ解析に適した特別なチェーン・オブ・シント(CoT)プロセスを提案する。我々の不確実性を認識したCoTは、外部ツールからのノイズを効果的に軽減し、より信頼性の高い出力を生み出します。我々は、一般的なコンテキスト取得や特殊なツール設計などの追加モジュールを含むVideoAgent2というシステムで、我々のアプローチを実装している。
論文参考訳（メタデータ） (2025-04-06T13:03:34Z)
MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-31T17:59:47Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding [28.316828641898375]
VideoAgent: 1)は、一般的な時間的イベント記述と、ビデオのオブジェクト中心のトラッキング状態の両方を格納する構造化メモリを構築する。 2) 入力タスククエリが与えられた場合,ビデオセグメントのローカライゼーションやオブジェクトメモリクエリなどのツールと,他の視覚基盤モデルを用いて対話的にタスクを解く。
論文参考訳（メタデータ） (2024-03-18T05:07:59Z)
Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文参考訳（メタデータ） (2024-01-21T23:36:14Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。