Fugu-MT 論文翻訳(概要): When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

論文の概要: When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

arxiv url: http://arxiv.org/abs/2605.24202v1
Date: Fri, 22 May 2026 20:43:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:17.739938
Title: When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs
Title（参考訳）: マルチエージェントRLはLLMワークフローを改善するのか?ワークフロー、スケール、ポリシー共有のトレードオフ
Authors: Yifan Zeng, Yiran Wu, Yaolun Zhang, Wentian Zhao, Kun Wan, Qingyun Wu, Huazheng Wang,
Abstract要約: マルチエージェントLLMのエンド・ツー・エンドのRLトレーニングがベースモデルよりも改善された場合について検討する。すべてのロールがひとつのポリシを更新する共有ポリシトレーニングと、それぞれのロールが独自のパラメータを持つ分離ポリシトレーニングを比較します。マルチエージェントRLは通常、ベースモデルよりも改善されるが、ワークフロー、タスク、スケールに大きく依存する。
参考スコア（独自算出の注目度）: 29.187382166898672
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.
Abstract（参考訳）: マルチエージェントLLMワークフローは、エンドタスクの精度を高めるために、特殊な役割を通して推論をルーティングするが、強化学習でそれらの役割を共同で訓練することは、理解が不十分な方法で不安定である。マルチエージェントLLMワークフローのエンドツーエンドRLトレーニングをベースモデルよりも改善し,すべてのロールがひとつのポリシを更新する共有ポリシトレーニングと,それぞれのロールが独自のパラメータを持つ分離ポリシトレーニングを比較した。実験行列は、Eval-Opt、Voting、Orch-Workersのワークフロー、数学とコードタスク、3つのモデルスケール(0.6B、1.7B、4B)にまたがる。マルチエージェントRLは通常、ベースモデルよりも改善されるが、ワークフロー、タスク、スケールに大きく依存する。分離ポリティは高いピーク精度に達する傾向にあるが、多くの場合、終端精度の崖から落ちる。次に、ワークフロートポロジとポリシルーティングによって引き起こされる役割レベルの勾配ダイナミクスを通して、これらのパターンの最も強い説明を行う: 分離されたポリティクスの下では、共有プロンプト上の並列な同ロールエージェントは、ルールごとの勾配を増幅し、VotingとOrch-Workersワークフローの終端劣化を駆動します。経験的マップとその基盤となるメカニズムは、均一な安定性を提供するのではなく、ポリシー共有ルートが異なるチャネルを通じて圧力を訓練することを示し、ワークフローとタスク条件のトレードオフの設計上の選択となる。

関連論文リスト

Counterfactual Credit Policy Optimization for Multi-Agent Collaboration [27.260904103460664]
協調多エージェント大言語モデル(LLM)は、役割を分解し、多様な仮説を集約することで複雑な推論タスクを解くことができる。本稿では,エージェント固有の学習信号を割り当てるフレームワークであるCCPOを紹介する。 CCPOは、エージェントのコントリビューションを除去して結果をシミュレートする動的反ファクト的ベースラインを構築する。
論文参考訳（メタデータ） (2026-03-23T04:35:02Z)
Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs [20.084201133669534]
マルチエージェントシステム(MAS)と強化学習(RL)は,大規模言語モデル(LLM)のエージェント能力を高めるために広く利用されている。政治上のRLをMASに適用することはまだ未熟であり、ユニークな課題を提示している。我々は,エージェントとターンワイドなグループ化RLアルゴリズムをMASに適合させるAT-GRPOと,単一・複数政治体制をサポートするトレーニングシステムを提案する。
論文参考訳（メタデータ） (2025-10-13T06:55:09Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文参考訳（メタデータ） (2025-05-27T03:40:02Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
Co-learning Planning and Control Policies Constrained by Differentiable Logic Specifications [4.12484724941528]
本稿では,高次元ロボットナビゲーションタスクを解くための新しい強化学習手法を提案する。既存の強化学習アルゴリズムと比較して、より少ないサンプルで高品質なポリシーを訓練する。提案手法は,高次元制御と政策アライメントによる準最適政策の回避にも有効である。
論文参考訳（メタデータ） (2023-03-02T15:24:24Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。 RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2022-10-18T07:32:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。