論文の概要: AgentCVR: Active Multi-Agent Cross-Video Reasoning via Script-Simulated Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.29643v1
- Date: Thu, 28 May 2026 09:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.567472
- Title: AgentCVR: Active Multi-Agent Cross-Video Reasoning via Script-Simulated Reinforcement Learning
- Title(参考訳): AgentCVR:スクリプトシミュレーション強化学習によるアクティブマルチエージェントクロスビデオ推論
- Authors: Yilun Qiu, Jiahe Wang, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Chun Yuan,
- Abstract要約: CVR(Cross-Video Reasoning)は、マルチモーダルインテリジェンスにおいて重要なフロンティアとして登場した。
本稿では,CVRを積極的なエビデンス獲得タスクとして扱うマルチエージェントフレームワークであるAgentCVRを提案する。
- 参考スコア(独自算出の注目度): 51.50063777258973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Video Reasoning (CVR) has emerged as a critical frontier in multimodal intelligence, requiring models to retrieve, align, and aggregate evidence distributed across multiple videos. Current Multimodal Large Language Models (MLLMs) often struggle with CVR, as simple single-pass strategies encode multiple videos into a shared compressed context, potentially obscuring rare but critical evidence. In this paper, we propose AgentCVR, a multi-agent framework that treats CVR as an active evidence-acquisition task. AgentCVR employs a Master Agent to iteratively coordinate specialized Visual and Audio Agents for targeted evidence extraction. To ensure efficient training, we introduce Script-Simulated RL, which optimizes the agent's policy with LLM-generated semantic scripts and a lightweight text-based simulator, bypassing costly multimodal inference during online exploration. Experimental results on a comprehensive CVR benchmark show that AgentCVR outperforms single-pass baselines and achieves comparable performance to state-of-the-art closed-source systems, particularly in complex cross-video alignment and localization. To ensure reproducibility, our code is available at https://github.com/wang-jh24/AgentCVR.
- Abstract(参考訳): CVR(Cross-Video Reasoning)は、マルチモーダルインテリジェンスにおいて重要なフロンティアとして現れ、複数のビデオにまたがる証拠の検索、調整、集約をモデルに要求している。
現在のMultimodal Large Language Models (MLLM) は、複数のビデオを共有圧縮コンテキストにエンコードする単純なシングルパス戦略として、CVRとしばしば戦っている。
本稿では,CVRをアクティブエビデンス獲得タスクとして扱うマルチエージェントフレームワークであるAgentCVRを提案する。
AgentCVRは、ターゲットエビデンス抽出のために、専門のビジュアルエージェントとオーディオエージェントを反復的にコーディネートするためにマスターエージェントを使用する。
LLM生成セマンティックスクリプトと軽量テキストベースシミュレータを用いてエージェントのポリシーを最適化するScript-Simulated RLを導入する。
総合的なCVRベンチマークの実験結果によると、AgentCVRはシングルパスベースラインよりも優れており、特に複雑なクロスビデオアライメントとローカライゼーションにおいて、最先端のクローズドソースシステムと同等のパフォーマンスを達成する。
再現性を確保するため、私たちのコードはhttps://github.com/wang-jh24/AgentCVR.comで利用可能です。
関連論文リスト
- Single-agent vs. Multi-agents for Automated Video Analysis of On-Screen Collaborative Learning Behaviors [0.0]
スクリーン上の学習行動は、学生が学習中にどのように情報を求め、利用し、生成するかについての貴重な洞察を提供する。
近年の視覚言語モデル(VLM)は、労働集約型手動コーディングを自動化する新しい機会を提供する。
本研究では,ビデオ解析におけるVLMベースのマルチエージェントシステムの有効性を実証し,マルチモーダルデータ解析のためのスケーラブルなフレームワークを提供する。
論文 参考訳(メタデータ) (2026-04-04T08:01:02Z) - EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use [9.106278853322008]
EventMemAgentは階層型メモリモジュールに基づくアクティブなオンラインビデオエージェントフレームワークである。
短期記憶はイベント境界を検知し、イベントグラニュラー貯水池サンプリングを用いてストリーミングビデオフレームを処理する。
実験によると、EventMemAgentはオンラインビデオのベンチマークで競合する結果を内部化している。
論文 参考訳(メタデータ) (2026-02-17T03:17:24Z) - LongVideoAgent: Multi-Agent Reasoning with Long Videos [69.28914905197426]
本稿では,主LLMが問題関連セグメントの局所化のために接地エージェントをコーディネートするマルチエージェントフレームワークと,対象とするテキスト観察を抽出する視覚エージェントを提案する。
マスターエージェントは、ステップ制限で計画し、簡潔で正確で効率的なマルチエージェント協調を促進するために強化学習で訓練されている。
テレビQA/TVQA+から集約したエピソードレベルのデータセットであるLongTVQAとLongTVQA+では,マルチエージェントシステムは強力な非エージェントベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-12-23T18:59:49Z) - UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist [107.04196084992907]
次世代ビデオジェネラリストのためのオールニ対応マルチエージェントフレームワークUniVAを紹介する。
UniVAはPlan-and-Actのデュアルエージェントアーキテクチャを採用しており、高度に自動化されプロアクティブなワークフローを駆動している。
また、理解、編集、セグメンテーション、生成にまたがるマルチステップビデオタスクのベンチマークスイートUniVA-Benchについても紹介する。
論文 参考訳(メタデータ) (2025-11-11T17:58:13Z) - CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation [29.58444236508143]
MRAG(Multimodal Retrieval-Augmented Generation)により、MLLM(Large Language Models)は、外部のマルチモーダルエビデンスによる応答を生成することができる。
既存のベンチマークは、モダリティのカバレッジとフォーマットの多様性に制限されている。
CFVBenchは599の公開ビデオから構築された大規模で手動で検証されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-10T11:05:37Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。