論文の概要: MARS: Reinforcing Multi-Agent Reasoning of LLMs through Self-Play in Strategic Games
- arxiv url: http://arxiv.org/abs/2510.15414v1
- Date: Fri, 17 Oct 2025 08:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.530658
- Title: MARS: Reinforcing Multi-Agent Reasoning of LLMs through Self-Play in Strategic Games
- Title(参考訳): MARS:戦略ゲームにおける自己プレイによるLLMのマルチエージェント推論の強化
- Authors: Huining Yuan, Zelai Xu, Zheyue Tan, Xiangmin Yi, Mo Guang, Kaiwen Long, Haojia Hui, Boxun Li, Xinlei Chen, Bo Zhao, Xiao-Ping Zhang, Chao Yu, Yu Wang,
- Abstract要約: 我々は、協調ゲームと競争ゲームの両方において、セルフプレイを通じてLLMのマルチエージェント推論を動機付けるエンドツーエンドのRLフレームワークであるMARSを紹介する。
LLMにおける汎用マルチエージェント推論機能を開発するための強力なアプローチとして,戦略ゲームにおけるセルフプレイによるエンドツーエンドのRLトレーニングを確立した。
- 参考スコア(独自算出の注目度): 30.876486250077956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing Large Language Models (LLMs) to cooperate and compete effectively within multi-agent systems is a critical step towards more advanced intelligence. While reinforcement learning (RL) has proven effective for enhancing reasoning in single-agent tasks, its extension to multi-turn, multi-agent scenarios remains underexplored due to the challenges of long-horizon credit assignment and agent-specific advantage estimation. To address these challenges, we introduce MARS, an end-to-end RL framework that incentivizes Multi-Agent Reasoning of LLMs through Self-play in both cooperative and competitive games. MARS features a turn-level advantage estimator that aligns learning signals with each interaction for credit assignment, and an agent-specific advantage normalization to stabilize multi-agent training. By learning with self-play across cooperative and competitive games, the MARS agent trained from Qwen3-4B develops strong strategic abilities that generalize to held-out games with up to 28.7% performance improvements. More importantly, the capability acquired through self-play generalizes beyond games, yielding consistent performance gains of multi-agent systems in reasoning benchmarks. When integrated into leading multi-agent systems, our MARS agent achieves significant performance gains of 10.0% on AIME and 12.5% on GPQA-Diamond. These results establish end-to-end RL training with self-play in strategic games as a powerful approach for developing generalizable multi-agent reasoning capabilities in LLMs. Our code and models are publicly available at https://github.com/thu-nics/MARS.
- Abstract(参考訳): マルチエージェントシステム内で協調し、効果的に競合する大規模言語モデル(LLM)の開発は、より高度なインテリジェンスへの重要なステップである。
強化学習 (RL) は単一エージェントタスクにおける推論の強化に有効であることが証明されているが, 複数エージェントシナリオへの拡張は, 長期的信用割り当てとエージェント固有の優位性推定の課題により, 未探索のままである。
これらの課題に対処するために,協調型ゲームと競争型ゲームの両方において,自己プレイを通じてLLMのマルチエージェント推論を動機付けるエンドツーエンドのRLフレームワークであるMARSを紹介する。
MARSは、学習信号を信用代入のために各インタラクションと整列するターンレベルの利便推定器と、エージェント固有の利便正規化によりマルチエージェントトレーニングを安定化する。
Qwen3-4Bから訓練を受けたMARSエージェントは、協調的および競争的なゲームのセルフプレイで学習することで、最大28.7%のパフォーマンス向上を達成できる強力な戦略能力を開発した。
さらに重要なのは、セルフプレイによって得られる能力はゲームを超えて一般化され、推論ベンチマークにおけるマルチエージェントシステムの一貫したパフォーマンス向上をもたらすことである。
AIMEではMARSエージェントが10.0%,GPQA-ダイアモンドでは12.5%の大幅な性能向上を達成した。
これらの結果から, LLMにおける汎用マルチエージェント推論機能開発のための強力なアプローチとして, 戦略ゲームにおけるセルフプレイによるエンドツーエンドRLトレーニングが確立された。
私たちのコードとモデルはhttps://github.com/thu-nics/MARS.comで公開されています。
関連論文リスト
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。
本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文 参考訳(メタデータ) (2025-07-11T18:34:07Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Group-Agent Reinforcement Learning [12.915860504511523]
複数の地理的に分散したエージェントがそれぞれのRLタスクを協調的に実行すれば、各エージェントの強化学習プロセスに大きく貢献できる。
グループエージェント強化学習(GARL)のための分散RLフレームワークDDAL(Decentralized Distributed Asynchronous Learning)を提案する。
論文 参考訳(メタデータ) (2022-02-10T16:40:59Z) - Strategically Efficient Exploration in Competitive Multi-agent
Reinforcement Learning [25.041622707261897]
本研究は,非協調的マルチエージェント環境における楽観的な探索の役割を理解することを目的とする。
ゼロサムゲームにおいて、楽観的な探索は、学習者が戦略的なプレーとは無関係な状態空間のサンプリング部分を無駄にしてしまうことを示します。
この問題に対処するため、マルコフゲームにおいて戦略的に効率的な探索という形式的概念を導入し、これを有限マルコフゲームのための戦略的に効率的な2つの学習アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2021-07-30T15:22:59Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。