論文の概要: Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2602.08847v1
- Date: Mon, 09 Feb 2026 16:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.348691
- Title: Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems
- Title(参考訳): MAS博士:マルチエージェントLLMシステムのための安定強化学習
- Authors: Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An,
- Abstract要約: マルチエージェントLLMシステムのためのシンプルで安定したRLトレーニングレシピであるDr. MASを提案する。
MAS博士はエージェントワイド療法を使用し、各エージェントの報酬統計を用いてエージェントごとの利益を正規化する。
MASはマルチエージェントLLMシステムのためのエンドツーエンドのRLトレーニングフレームワークを提供する。
- 参考スコア(独自算出の注目度): 20.971694319263353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.
- Abstract(参考訳): マルチエージェントLLMシステムでは, 役割専門化による高度な推論とツールの利用が可能だが, 信頼性の高い強化学習(RL)は依然として困難である。
本研究では,グループベースRLをマルチエージェントLLMシステムに拡張する際のトレーニング不安定性の鍵となる理由を理論的に特定する。
GRPO方式の最適化の下では、グローバル正規化ベースラインは多様なエージェントの報酬分布から逸脱し、最終的には勾配-ノルム不安定をもたらす可能性がある。
そこで本研究では,マルチエージェントLLMシステムのための簡易かつ安定したRLトレーニングレシピであるDr. MASを提案する。
エージェントごとのアドバンテージを正規化し、各エージェントの報酬統計を使い、勾配のスケールを校正し、理論上も経験上もトレーニングを劇的に安定化させる。
このアルゴリズム以外にも、Dr. MASはマルチエージェントLLMシステムのためのエンドツーエンドのRLトレーニングフレームワークを提供し、スケーラブルなオーケストレーション、フレキシブルなマルチエージェントLLMサービスと最適化設定、LLMアクターバックエンドの共有リソーススケジューリングをサポートする。
我々は、Qwen2.5およびQwen3シリーズモデルを用いて、マルチエージェント数学推論とマルチターン検索ベンチマークに基づいて、Dr. MASを評価する。
MAS はバニラGRPO (例: +5.6\% avg@16 と +4.6\% pass@16 と +15.2\% avg@16 と +13.1\% pass@16 ) に対する明確な利得を達成し、勾配のスパイクをほとんど排除している。
さらに、不均一なエージェントモデル割り当ての下でも、効率を向上しながら、高い効果を保っている。
関連論文リスト
- Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO [24.532870400949424]
現在の訓練方法は、システム内のすべてのエージェントに対して統一された大きな言語モデルを訓練する。
これにより、異なるエージェントの基本的な分布が異なるため、パフォーマンスが制限される可能性がある。
垂直多エージェントシステムに対するグループ相対ポリシー最適化の階層的拡張であるM-GRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T12:06:30Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。
本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文 参考訳(メタデータ) (2025-07-11T18:34:07Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。