論文の概要: GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning
- arxiv url: http://arxiv.org/abs/2505.23399v1
- Date: Thu, 29 May 2025 12:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.851247
- Title: GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning
- Title(参考訳): GAM-Agent:複雑なビジュアル推論のためのゲーム理論と不確かさを意識したコラボレーション
- Authors: Jusheng Zhang, Yijia Fan, Wenjun Lin, Ruiqi Chen, Haoyi Jiang, Wenhao Chai, Jian Wang, Keze Wang,
- Abstract要約: GAM-Agentは、視覚言語推論を強化するためのゲーム理論のマルチエージェントフレームワークである。
基本エージェント間の非ゼロサムゲームとして推論過程を定式化し、視覚的知覚サブタスクを専門とするゲームと、論理的一貫性と事実的正確性を検証する重要なエージェントを定式化する。
我々のアプローチはモジュール化され、スケーラブルで、一般化可能であり、信頼性と説明可能なマルチエージェントのマルチモーダル推論への道筋を提供する。
- 参考スコア(独自算出の注目度): 9.24980723036746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose GAM-Agent, a game-theoretic multi-agent framework for enhancing vision-language reasoning. Unlike prior single-agent or monolithic models, GAM-Agent formulates the reasoning process as a non-zero-sum game between base agents--each specializing in visual perception subtasks--and a critical agent that verifies logic consistency and factual correctness. Agents communicate via structured claims, evidence, and uncertainty estimates. The framework introduces an uncertainty-aware controller to dynamically adjust agent collaboration, triggering multi-round debates when disagreement or ambiguity is detected. This process yields more robust and interpretable predictions. Experiments on four challenging benchmarks--MMMU, MMBench, MVBench, and V*Bench--demonstrate that GAM-Agent significantly improves performance across various VLM backbones. Notably, GAM-Agent boosts the accuracy of small-to-mid scale models (e.g., Qwen2.5-VL-7B, InternVL3-14B) by 5--6\%, and still enhances strong models like GPT-4o by up to 2--3\%. Our approach is modular, scalable, and generalizable, offering a path toward reliable and explainable multi-agent multimodal reasoning.
- Abstract(参考訳): 視覚言語推論の強化を目的としたゲーム理論多エージェントフレームワークであるGAM-Agentを提案する。
従来の単エージェントモデルやモノリシックモデルとは異なり、GAM-Agentはベースエージェント間の非ゼロサムゲームとして推論プロセスを定式化している。
エージェントは構造化されたクレーム、証拠、不確実性見積を通じて通信する。
このフレームワークは、エージェントの協調を動的に調整する不確実性認識コントローラを導入し、不一致やあいまいさが検出された場合に、複数ラウンドの議論を引き起こす。
このプロセスはより堅牢で解釈可能な予測をもたらす。
GAM-Agentは、MMMU、MMBench、MVBench、V*Bench-demonstrateの4つの挑戦的なベンチマークで、様々なVLMバックボーンのパフォーマンスを大幅に改善する。
特に、GAM-Agentは、小規模から中規模のモデル(例えば、Qwen2.5-VL-7B、InternVL3-14B)の精度を5--6\%向上させ、GPT-4oのような強力なモデルも最大2--3\%向上させる。
我々のアプローチはモジュール化され、スケーラブルで、一般化可能であり、信頼性と説明可能なマルチエージェントのマルチモーダル推論への道筋を提供する。
関連論文リスト
- SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents [43.74003959397812]
大規模言語モデル(LLM)ベースのエージェントは、最近、複雑な推論とツールの使用において、環境とのマルチステップのインタラクションを通じて印象的な機能を示した。
これらの軌道にはリッチなフィードバックが含まれており、エージェントを正しい方向に誘導して問題を正しく解くことができる。
モンテカルロ木探索 (MCTS) のような一般的な手法は、探索と搾取を効果的にバランスさせることができるが、それらは様々な軌道間の相互依存を無視している。
エージェントが推論プロセスを反復的に最適化できる自己進化フレームワークSE-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:51:55Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [5.120446836495469]
我々は,マルチエージェントLLMシステムのための診断テストベッドとして,社会心理学からの隠れプロファイルパラダイムを紹介した。
エージェント間で重要な情報を非対称に分配することにより、エージェント間ダイナミクスが集団的推論をどのように支援するか、あるいは妨げるかを明らかにする。
協調エージェントは集団的設定において過度に協調する傾向にあるが,矛盾が集団収束を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z) - Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning [29.580108004844856]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステム(MAS)は、複雑で現実的なタスクを解決するための有望な道を提供する。
テストタイムスケーリング(TTS)の最近の進歩は、難解な推論タスクにおいて、シングルエージェントのパフォーマンスを大幅に改善した。
モデルレベルのトレーニングとシステムレベルの調整の両方を通じて協調推論を強化するために設計された適応型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T00:27:45Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。
オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。
本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-03T08:55:19Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Robustness Testing for Multi-Agent Reinforcement Learning: State
Perturbations on Critical Agents [2.5204420653245245]
MARL(Multi-Agent Reinforcement Learning)は、スマート交通や無人航空機など、多くの分野に広く応用されている。
本研究は,MARLのための新しいロバストネステストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-09T02:26:28Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。
我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。
提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文 参考訳(メタデータ) (2022-07-11T21:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。