論文の概要: MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
- arxiv url: http://arxiv.org/abs/2511.11373v1
- Date: Fri, 14 Nov 2025 14:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.665239
- Title: MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
- Title(参考訳): MarsRL: エージェントパイプライン並列性を用いた強化学習によるマルチエージェント推論システムの改善
- Authors: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu,
- Abstract要約: 本稿では,エージェントパイプライン並列性を備えた新しい強化学習フレームワークであるMarsRLを提案する。
MarsRL は AIME2025 の精度を 86.5% から 93.3% に改善し、BeyondAIME は 64.9% から 73.8% に改善した。
これらの知見は、マルチエージェント推論システムを進化させるMarsRLの可能性を示している。
- 参考スコア(独自算出の注目度): 9.454531044450581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、検証可能な報酬(RLVR)とテスト時間スケーリングによる強化学習によって促進されている。
しかし、LLMの限られた出力長は、単一の推論プロセスで達成可能な推論の深さを制約する。
マルチエージェント推論システムは、ソルバー、検証器、コレクターを含む複数のエージェントを反復的に洗練されたソリューションに利用することで、有望な代替手段を提供する。
Gemini 2.5 Proのようなクローズドソースモデルでは有効だが、批判や修正能力の不足により、オープンソースモデルへの一般化に苦慮している。
そこで本研究では,エージェントパイプライン並列性を備えた新しい強化学習フレームワークであるMarsRLを提案する。
MarsRLは、報酬ノイズを軽減するためにエージェント固有の報酬メカニズムを導入し、パイプラインにインスパイアされたトレーニングを採用して、長い軌道の処理効率を向上させる。
Qwen3-30B-A3B-Thinking-2507に対して、MarsRLはAIME2025の精度を86.5%から93.3%に改善し、BeyondAIMEは64.9%から73.8%に改善し、Qwen3-235B-A22B-Thinking-2507を上回った。
これらの知見は、マルチエージェント推論システムを進化させ、多様な推論タスクにまたがる適用性を拡大するMarsRLの可能性を強調している。
関連論文リスト
- HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation [21.08814504507274]
準最適探索行動は、オーバーサーチやアンダーサーチなど、広く存在する。
現在のトレーニング方法は、通常、RLフレームワークの成果ベースの報酬に依存するが、これらの非効率に対処するために必要なきめ細かい制御が欠如している。
我々は、RLトレーニングに詳細な知識に基づくプロセス報酬を組み込んだトレーニング手法であるHiPRAGを紹介する。
論文 参考訳(メタデータ) (2025-10-09T05:13:10Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems? [71.21547572568655]
AgenTracer-8Bは、マルチグラニュラ強化学習で訓練された軽量障害トレーサである。
Who&Whenベンチマークでは、AgenTracer-8BはGemini-2.5-ProやClaude-4-Sonnetのような巨大なLLMを最大18.18%上回っている。
AgenTracer-8BはMetaGPTやMAASのような市販のマルチエージェントシステムに4.8-14.2%の性能向上をもたらす。
論文 参考訳(メタデータ) (2025-09-03T13:42:14Z) - Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [29.605396813225386]
マルチターン対話型タスクにおけるエージェントの訓練に強化学習をどのように利用できるかを示す。
本手法は,オープンウェイトモデルを用いた多ターン対話タスクのための有能エージェントの訓練のための実践的アプローチを提供する。
論文 参考訳(メタデータ) (2025-08-05T14:30:47Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Mars-PO: Multi-Agent Reasoning System Preference Optimization [16.145823558485393]
大規模言語モデル(LLM)の数学的推論能力を改善するための新しいフレームワークであるMars-POを提案する。
複数のエージェントからの高品質な出力をハイブリッドな正のサンプルセットに組み合わせ、エージェント固有の負のサンプルと組み合わせて、トレーニングのための堅牢な選好ペアを構築する。
個々の弱点に対処しながら、エージェントを共有陽性のサンプルと整列させることで、Mars-POは数学的推論ベンチマークで大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-11-28T10:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。