論文の概要: VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.19524v1
- Date: Mon, 24 Nov 2025 07:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.072001
- Title: VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning
- Title(参考訳): VideoChat-M1:マルチエージェント強化学習による映像理解のための協調的政策計画
- Authors: Boyu Chen, Zikang Wang, Zhengrong Yue, Kainan Yan, Chenyun Yu, Yi Huang, Zijun Liu, Yafei Wen, Xiaoxin Chen, Yang Liu, Peng Li, Yali Wang,
- Abstract要約: 本稿では,ビデオ理解のための新しいマルチエージェントシステムであるVideoChat-M1を提案する。
単一のポリシーや固定されたポリシーを使う代わりに、VideoChat-M1は複数のポリシーエージェントを持つCPP(Collaborative Policy Planning)パラダイムを採用する。
我々は,ビデオチャット-M1が4つのタスクにまたがる8つのベンチマークでSOTA性能を達成することを示す。
- 参考スコア(独自算出の注目度): 30.278740496355507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: By leveraging tool-augmented Multimodal Large Language Models (MLLMs), multi-agent frameworks are driving progress in video understanding. However, most of them adopt static and non-learnable tool invocation mechanisms, which limit the discovery of diverse clues essential for robust perception and reasoning regarding temporally or spatially complex videos. To address this challenge, we propose a novel Multi-agent system for video understanding, namely VideoChat-M1. Instead of using a single or fixed policy, VideoChat-M1 adopts a distinct Collaborative Policy Planning (CPP) paradigm with multiple policy agents, which comprises three key processes. (1) Policy Generation: Each agent generates its unique tool invocation policy tailored to the user's query; (2) Policy Execution: Each agent sequentially invokes relevant tools to execute its policy and explore the video content; (3) Policy Communication: During the intermediate stages of policy execution, agents interact with one another to update their respective policies. Through this collaborative framework, all agents work in tandem, dynamically refining their preferred policies based on contextual insights from peers to effectively respond to the user's query. Moreover, we equip our CPP paradigm with a concise Multi-Agent Reinforcement Learning (MARL) method. Consequently, the team of policy agents can be jointly optimized to enhance VideoChat-M1's performance, guided by both the final answer reward and intermediate collaborative process feedback. Extensive experiments demonstrate that VideoChat-M1 achieves SOTA performance across eight benchmarks spanning four tasks. Notably, on LongVideoBench, our method outperforms the SOTA model Gemini 2.5 pro by 3.6% and GPT-4o by 15.6%.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)を活用することで、マルチエージェントフレームワークは、ビデオ理解の進歩を推進している。
しかし、そのほとんどは静的で学習不可能なツール呼び出し機構を採用しており、これは時間的または空間的に複雑なビデオに関する堅牢な認識と推論に不可欠な多様な手がかりの発見を制限する。
この課題に対処するために,ビデオ理解のための新しいマルチエージェントシステムであるVideoChat-M1を提案する。
単一のポリシーや固定されたポリシーを使う代わりに、VideoChat-M1は3つの主要なプロセスから構成される複数のポリシーエージェントを備えたCPP(Collaborative Policy Planning)パラダイムを採用する。
1)ポリシー生成:各エージェントは,ユーザのクエリに合わせて独自のツール呼び出しポリシーを生成する。(2)ポリシー実行:各エージェントは,そのポリシーを実行し,ビデオコンテンツを探索するための関連ツールを順次呼び出す。(3)ポリシー通信:政策実行の中間段階において,エージェントは互いに対話し,それぞれのポリシーを更新する。
このコラボレーティブフレームワークを通じて、すべてのエージェントがタンデムで働き、ユーザのクエリに効果的に対応するために、ピアからのコンテキスト的洞察に基づいて、好みのポリシーを動的に洗練する。
さらに,我々はCPPパラダイムを,簡潔なマルチエージェント強化学習(MARL)手法で実現している。
その結果、ポリシエージェントのチームは、最終回答報酬と中間協調プロセスフィードバックの両方によって導かれる、VideoChat-M1のパフォーマンスを向上させるために、共同で最適化することができる。
大規模な実験により、VideoChat-M1は4つのタスクにまたがる8つのベンチマークでSOTAのパフォーマンスを達成した。
特にLongVideoBenchでは,SOTAモデルであるGemini 2.5 Proを3.6%,GPT-4oを15.6%上回る性能を示した。
関連論文リスト
- UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist [107.04196084992907]
次世代ビデオジェネラリストのためのオールニ対応マルチエージェントフレームワークUniVAを紹介する。
UniVAはPlan-and-Actのデュアルエージェントアーキテクチャを採用しており、高度に自動化されプロアクティブなワークフローを駆動している。
また、理解、編集、セグメンテーション、生成にまたがるマルチステップビデオタスクのベンチマークスイートUniVA-Benchについても紹介する。
論文 参考訳(メタデータ) (2025-11-11T17:58:13Z) - Multimodal Policy Internalization for Conversational Agents [48.11601444262434]
マルチモーダルポリシー内部化(MPI)は、推論集約型マルチモーダルポリシーをモデルパラメータに内部化する新しいタスクである。
合成と実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築します。
TriMPIは、エンドツーエンドの精度、一般化、ロバスト性において顕著な向上を実現している。
論文 参考訳(メタデータ) (2025-10-10T15:28:30Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [77.62279834617475]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents [18.580893774836845]
既存のMLLMは、長いビデオ内の時間的コンテキストをモデル化する上で大きな課題に直面している。
LVAgentはMLLMエージェントのマルチラウンド動的協調を長時間ビデオ理解で実現した最初のフレームワークである。
LVAgentは4つのメインストリームビデオ理解タスクにおいて80%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-13T09:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。