論文の概要: LongVideoAgent: Multi-Agent Reasoning with Long Videos
- arxiv url: http://arxiv.org/abs/2512.20618v1
- Date: Tue, 23 Dec 2025 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.991194
- Title: LongVideoAgent: Multi-Agent Reasoning with Long Videos
- Title(参考訳): LongVideoAgent:ロングビデオによるマルチエージェント推論
- Authors: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen,
- Abstract要約: 本稿では,主LLMが問題関連セグメントの局所化のために接地エージェントをコーディネートするマルチエージェントフレームワークと,対象とするテキスト観察を抽出する視覚エージェントを提案する。
マスターエージェントは、ステップ制限で計画し、簡潔で正確で効率的なマルチエージェント協調を促進するために強化学習で訓練されている。
テレビQA/TVQA+から集約したエピソードレベルのデータセットであるLongTVQAとLongTVQA+では,マルチエージェントシステムは強力な非エージェントベースラインよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 69.28914905197426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal LLMs and systems that use tools for long-video QA point to the promise of reasoning over hour-long episodes. However, many methods still compress content into lossy summaries or rely on limited toolsets, weakening temporal grounding and missing fine-grained cues. We propose a multi-agent framework in which a master LLM coordinates a grounding agent to localize question-relevant segments and a vision agent to extract targeted textual observations. The master agent plans with a step limit, and is trained with reinforcement learning to encourage concise, correct, and efficient multi-agent cooperation. This design helps the master agent focus on relevant clips via grounding, complements subtitles with visual detail, and yields interpretable trajectories. On our proposed LongTVQA and LongTVQA+ which are episode-level datasets aggregated from TVQA/TVQA+, our multi-agent system significantly outperforms strong non-agent baselines. Experiments also show reinforcement learning further strengthens reasoning and planning for the trained agent. Code and data will be shared at https://longvideoagent.github.io/.
- Abstract(参考訳): 近年のマルチモーダルLLMや、長時間のQAにツールを使用するシステムの発展は、1時間以上のエピソードを推論する可能性を示唆している。
しかし、多くの手法は、コンテンツを損失の少ない要約に圧縮したり、限られたツールセットに依存したり、時間的接地を弱め、きめ細かい手がかりを欠いている。
本稿では,主LLMが問題関連セグメントの局所化のために接地エージェントをコーディネートするマルチエージェントフレームワークと,対象とするテキスト観察を抽出する視覚エージェントを提案する。
マスターエージェントは、ステップ制限で計画し、簡潔で正確で効率的なマルチエージェント協調を促進するために強化学習で訓練されている。
この設計は、マスターエージェントがグラウンド化を通じて関連するクリップに集中し、サブタイトルを視覚的詳細で補完し、解釈可能なトラジェクトリを生成するのに役立つ。
テレビQA/TVQA+から集約したエピソードレベルのデータセットであるLongTVQAとLongTVQA+では,マルチエージェントシステムは強力な非エージェントベースラインよりも大幅に優れています。
実験はまた、強化学習が訓練されたエージェントの推論と計画をさらに強化することを示している。
コードとデータはhttps://longvideoagent.github.io/で共有される。
関連論文リスト
- CAViAR: Critic-Augmented Video Agentic Reasoning [90.48729440775223]
より複雑なビデオ推論を行うために、知覚能力を利用することができますか?
我々は,ビデオモジュールをサブエージェントやツールとして利用できる大規模言語モデルエージェントを開発した。
我々は,我々のエージェントと批評家の組み合わせが,データセット上で高い性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-09T17:59:39Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - ViQAgent: Zero-Shot Video Question Answering via Agent with Open-Vocabulary Grounding Validation [49.1574468325115]
本研究は、ゼロショットビデオ質問応答(VideoQA)のためのLCMブラインドエージェントを提案する。
Chain-of-Thoughtフレームワークと、YOLO-Worldと組み合わせて、オブジェクトのトラッキングとアライメントを強化する。
このアプローチは、NExT-QA、iVQA、ActivityNet-QAベンチマークのパフォーマンスを向上した、ビデオQAおよびビデオ理解における新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-05-21T18:32:43Z) - VideoMultiAgents: A Multi-Agent Framework for Video Question Answering [11.514596823413736]
Video Question Answering (VQA) は本質的にマルチモーダル推論に依存している。
本稿では,視覚,シーングラフ解析,テキスト処理などの特殊エージェントを統合するフレームワークであるVideoMultiAgentsを紹介する。
提案手法は, 対象, 行動, 時間的遷移をハイライトするキャプションを生成する, 質問誘導キャプション生成を補足する。
論文 参考訳(メタデータ) (2025-04-25T22:08:09Z) - LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents [18.580893774836845]
既存のMLLMは、長いビデオ内の時間的コンテキストをモデル化する上で大きな課題に直面している。
LVAgentはMLLMエージェントのマルチラウンド動的協調を長時間ビデオ理解で実現した最初のフレームワークである。
LVAgentは4つのメインストリームビデオ理解タスクにおいて80%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-13T09:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。