論文の概要: MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation
- arxiv url: http://arxiv.org/abs/2604.14564v1
- Date: Thu, 16 Apr 2026 02:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.694102
- Title: MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation
- Title(参考訳): MARS$^2$:コード生成のための強化学習によるマルチエージェント木探索のスケーリング
- Authors: Pengfei Li, Shijie Wang, Fangyuan Li, Yikun Fu, Kaifeng Liu, Kaiyan Zhang, Dazhi Zhang, Yuqiang Li, Biqing Qi, Bowen Zhou,
- Abstract要約: 強化学習(RL)パラダイムは、コード生成のような推論集約的なタスクに強いパフォーマンスを示してきた。
独立に最適化されたエージェントが協力する統一RLフレームワークである textbfMARS$2$ (Multi-Agent Reinforced Tree-Search Scaling) を提案する。
- 参考スコア(独自算出の注目度): 29.92851142870157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) paradigms have demonstrated strong performance on reasoning-intensive tasks such as code generation. However, limited trajectory diversity often leads to diminishing returns, which constrains the achievable performance ceiling. Search-enhanced RL alleviates this issue by introducing structured exploration, which remains constrained by the single-agent policy priors. Meanwhile, leveraging multiple interacting policies can acquire more diverse exploratory signals, but existing approaches are typically decoupled from structured search. We propose \textbf{MARS$^2$} (Multi-Agent Reinforced Tree-Search Scaling), a unified RL framework in which multiple independently-optimized agents collaborate within a shared tree-structured search environment. MARS$^2$ models the search tree as a learnable multi-agent interaction environment, enabling heterogeneous agents to collaboratively generate and refine candidate solutions within a shared search topology. To support effective learning, we introduce a path-level group advantage formulation based on tree-consistent reward shaping, which facilitates effective credit assignment across complex search trajectories. Experiments on code generation benchmarks show that MARS$^2$ consistently improves performance across diverse model combinations and training settings, demonstrating the effectiveness of coupling multi-agent collaboration with tree search for enhancing reinforcement learning. Our code is publicly available at https://github.com/TsinghuaC3I/MARTI.
- Abstract(参考訳): 強化学習(RL)パラダイムは、コード生成のような推論集約的なタスクに強いパフォーマンスを示してきた。
しかし、トラジェクトリの多様性の制限は、しばしばリターンを減少させ、達成可能なパフォーマンスの天井を制約する。
検索強化RLは、単一エージェントポリシーに制約された構造的探索を導入することでこの問題を緩和する。
一方、複数のインタラクションポリシを活用することで、より多様な探索的な信号が得られるが、既存のアプローチは構造化された検索から切り離されることが多い。
我々は,複数の独立に最適化されたエージェントが,共有木構造検索環境内で協調して動作する統合RLフレームワークであるtextbf{MARS$^2$} (Multi-Agent Reinforced Tree-Search Scaling)を提案する。
MARS$^2$は、検索ツリーを学習可能なマルチエージェントインタラクション環境としてモデル化し、異種エージェントが共有検索トポロジー内の候補ソリューションを協調的に生成し、洗練することを可能にする。
効果的な学習を支援するため,複雑な探索軌跡にまたがる効果的な信用割当を容易にする木一貫性報酬形成に基づくパスレベルのグループアドバンテージの定式化を導入する。
コード生成ベンチマークの実験では、MARS$^2$は様々なモデルの組み合わせとトレーニング設定をまたいだパフォーマンスを一貫して改善し、強化学習を強化するためにツリー検索とマルチエージェントコラボレーションを結合する効果を実証している。
私たちのコードはhttps://github.com/TsinghuaC3I/MARTI.comで公開されています。
関連論文リスト
- MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation [64.2621682259008]
セルフサーチスケーリングによるマルチエージェント強化トレーニングと推論フレームワーク(MARTI-MARS2)
本稿では,MARTI-MARS2を用いたマルチエージェント強化学習・推論フレームワークを提案する。
我々は、MARTI-MARS2が77.7%を獲得し、GPT-5.1のような強力なベースラインを、挑戦的なコード生成ベンチマークで上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-08T07:28:44Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search [19.443576967819684]
LLMエージェントは、内部推論と外部ツールの相互作用をインターリーブすることによって、マルチターンタスクに対処する強力なシステムとして登場した。
マルチターンエージェントRLのための統合フレームワークであるAT$2$POを提案する。
論文 参考訳(メタデータ) (2026-01-08T09:35:49Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent
Reinforcement Learning [24.05715475457959]
協調型マルチエージェント強化学習(MARL)における効率的な探索の重要性
本研究では,逐次的行動計算の考え方に基づく協調探索を効果的に促進する探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T02:05:16Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。