論文の概要: MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation
- arxiv url: http://arxiv.org/abs/2602.07848v1
- Date: Sun, 08 Feb 2026 07:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.831225
- Title: MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation
- Title(参考訳): MARTI-MARS$^2$:コード生成のための強化学習によるマルチエージェントセルフサーチのスケーリング
- Authors: Shijie Wang, Pengfei Li, Yikun Fu, Kaifeng Liu, Fangyuan Li, Yang Liu, Xiaowei Sun, Zonglin Li, Siyao Zhao, Jian Zhao, Kai Tian, Dong Li, Junqi Gao, Yutong Zhang, Yiqun Chen, Yuqiang Li, Zoe Li, Weinan Zhang, Peng Ye, Shuyue Hu, Lei Bai, Bowen Zhou, Kaiyan Zhang, Biqing Qi,
- Abstract要約: セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
- 参考スコア(独自算出の注目度): 64.2621682259008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the complex reasoning capability of Large Language Models (LLMs) has attracted significant attention, single-agent systems often encounter inherent performance ceilings in complex tasks such as code generation. Multi-agent collaboration offers a promising avenue to transcend these boundaries. However, existing frameworks typically rely on prompt-based test-time interactions or multi-role configurations trained with homogeneous parameters, limiting error correction capabilities and strategic diversity. In this paper, we propose a Multi-Agent Reinforced Training and Inference Framework with Self-Search Scaling (MARTI-MARS2), which integrates policy learning with multi-agent tree search by formulating the multi-agent collaborative exploration process as a dynamic and learnable environment. By allowing agents to iteratively explore and refine within the environment, the framework facilitates evolution from parameter-sharing homogeneous multi-role training to heterogeneous multi-agent training, breaking through single-agent capability limits. We also introduce an efficient inference strategy MARTI-MARS2-T+ to fully exploit the scaling potential of multi-agent collaboration at test time. We conduct extensive experiments across varied model scales (8B, 14B, and 32B) on challenging code generation benchmarks. Utilizing two collaborating 32B models, MARTI-MARS2 achieves 77.7%, outperforming strong baselines like GPT-5.1. Furthermore, MARTI-MARS2 reveals a novel scaling law: shifting from single-agent to homogeneous multi-role and ultimately to heterogeneous multi-agent paradigms progressively yields higher RL performance ceilings, robust TTS capabilities, and greater policy diversity, suggesting that policy diversity is critical for scaling intelligence via multi-agent reinforcement learning.
- Abstract(参考訳): LLM(Large Language Models)の複雑な推論能力は注目されているが、単一エージェントシステムはコード生成のような複雑なタスクにおいて固有のパフォーマンス天井に遭遇することが多い。
マルチエージェントのコラボレーションは、これらの境界を超越するための有望な道を提供する。
しかし、既存のフレームワークは一般的に、プロンプトベースのテストタイムインタラクションや、均質なパラメータで訓練されたマルチロール構成、エラー訂正能力の制限、戦略的多様性に依存している。
本稿では,マルチエージェント協調探索プロセスを動的かつ学習可能な環境として定式化することにより,ポリシー学習とマルチエージェント木探索を統合したMARTI-MARS2を用いたマルチエージェント強化トレーニング・推論フレームワークを提案する。
エージェントを環境内で反復的に探索し、洗練させることで、このフレームワークはパラメータ共有の均質なマルチエージェントトレーニングから異質なマルチエージェントトレーニングへの進化を促進し、単一エージェント能力の限界を突破する。
また,テスト時のマルチエージェントコラボレーションのスケーリング可能性を完全に活用するために,効率的な推論戦略であるMARTI-MARS2-T+を導入する。
我々は、様々なモデルスケール(8B、14B、32B)で、挑戦的なコード生成ベンチマークについて広範な実験を行う。
2つの32Bモデルを用いてMARTI-MARS2は77.7%を獲得し、GPT-5.1のような強力なベースラインを上回った。
さらに、MARTI-MARS2は、単一のエージェントから均質なマルチロールへ、究極的には異種なマルチエージェントパラダイムへ移行することで、より高いRLパフォーマンス天井、堅牢なTS能力、より広範なポリシーの多様性が、マルチエージェント強化学習を通じてインテリジェンスをスケールするために重要であることを示唆する、新しいスケーリング法則を明らかにしている。
関連論文リスト
- Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z) - MisoDICE: Multi-Agent Imitation from Unlabeled Mixed-Quality Demonstrations [5.4482836906033585]
実演が混在する多エージェント環境下でのオフライン模倣学習(IL)について検討した。
提案手法は,軌道ラベリングとマルチエージェント模倣学習の2段階からなる。
我々はこれらのラベルを利用してロバストなポリシーを学習する新しいマルチエージェントILアルゴリズムであるMisoDICEを紹介する。
論文 参考訳(メタデータ) (2025-05-24T08:43:42Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Celebrating Diversity in Shared Multi-Agent Reinforcement Learning [20.901606233349177]
深層多エージェント強化学習は、複雑な協調的な課題を解決することを約束している。
本稿では,共有型マルチエージェント強化学習の最適化と表現に多様性を導入することを目的とする。
提案手法は,Google Research Footballと超硬度StarCraft IIマイクロマネジメントタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T00:55:03Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。