論文の概要: Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs
- arxiv url: http://arxiv.org/abs/2511.06134v1
- Date: Sat, 08 Nov 2025 21:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.774007
- Title: Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs
- Title(参考訳): Maestro: マルチエージェントLLMの条件付きリストワイドポリシ最適化によるコラボレートの学習
- Authors: Wei Yang, Jiacheng Pang, Shixuan Li, Paul Bogdan, Stephen Tu, Jesse Thomason,
- Abstract要約: 我々は、認知モードを構造的に分離するコラボレーションのための原則的パラダイムである、ロールオーケストレーション(Maestro)を提示する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロとCLPOは、既存の最先端のマルチエージェントアプローチを一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 23.590034731179824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems (MAS) built on Large Language Models (LLMs) are being used to approach complex problems and can surpass single model inference. However, their success hinges on navigating a fundamental cognitive tension: the need to balance broad, divergent exploration of the solution space with a principled, convergent synthesis to the optimal solution. Existing paradigms often struggle to manage this duality, leading to premature consensus, error propagation, and a critical credit assignment problem that fails to distinguish between genuine reasoning and superficially plausible arguments. To resolve this core challenge, we propose the Multi-Agent Exploration-Synthesis framework Through Role Orchestration (Maestro), a principled paradigm for collaboration that structurally decouples these cognitive modes. Maestro uses a collective of parallel Execution Agents for diverse exploration and a specialized Central Agent for convergent, evaluative synthesis. To operationalize this critical synthesis phase, we introduce Conditional Listwise Policy Optimization (CLPO), a reinforcement learning objective that disentangles signals for strategic decisions and tactical rationales. By combining decision-focused policy gradients with a list-wise ranking loss over justifications, CLPO achieves clean credit assignment and stronger comparative supervision. Experiments on mathematical reasoning and general problem-solving benchmarks demonstrate that Maestro, coupled with CLPO, consistently outperforms existing state-of-the-art multi-agent approaches, delivering absolute accuracy gains of 6% on average and up to 10% at best.
- Abstract(参考訳): LLM(Large Language Models)上に構築されたマルチエージェントシステム(MAS)は、複雑な問題に対処するために使われており、単一のモデル推論を超越することができる。
しかし、彼らの成功は基本的な認知的緊張をナビゲートすることに集中している: 最適解に対する原理化された収束合成と、解空間の広範で散在的な探索のバランスを取る必要がある。
既存のパラダイムは、しばしばこの双対性を管理するのに苦労し、早めのコンセンサス、エラーの伝播、そして真の推論と表面的に妥当な議論の区別に失敗する重要な信用代入問題をもたらす。
この課題を解決するために,これらの認知モードを構造的に分離する協調のための原則的パラダイムであるMulti-Agent Exploration-Synthesis framework Through Role Orchestration (Maestro)を提案する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
この重要な合成フェーズを運用するために、戦略決定のための信号と戦術的合理化を分離する強化学習目標である条件付きリストワイドポリシー最適化(CLPO)を導入する。
決定に焦点を絞った政策勾配と、正当性よりも格付けが低いリストワイドのランキング損失を組み合わせることで、CLPOは清潔な信用割当とより強力な比較監督を実現する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロはCLPOと組み合わせて既存の最先端のマルチエージェントアプローチを一貫して上回り、平均で6%、最高で10%の精度向上を実現している。
関連論文リスト
- Multi-Action Self-Improvement for Neural Combinatorial Optimization [0.979731979071071]
自己改善モデルは、高品質なソリューションの生成と模倣によってポリシーを反復的に洗練する。
これらのアプローチは、複数のエージェントの協調に関わる問題の構造を活用できない。
共同マルチエージェント動作による自己改善を拡大する。
論文 参考訳(メタデータ) (2025-10-14T08:26:27Z) - StepORLM: A Self-Evolving Framework With Generative Process Supervision For Operations Research Language Models [18.500046072165254]
我々は、生成過程を監督する新しい自己進化フレームワークであるStepORLMを紹介する。
StepORLMの中核となるのは、ポリシーモデルと生成プロセス報酬モデル(GenPRM)が相互に反復的に改善される、共進化ループである。
論文 参考訳(メタデータ) (2025-09-26T16:39:10Z) - AgentCDM: Enhancing Multi-Agent Collaborative Decision-Making via ACH-Inspired Structured Reasoning [8.566904810788213]
AgentCDMはマルチエージェントシステムにおける協調的意思決定を強化するための構造化フレームワークである。
認知バイアスを内部化し、意思決定を受動的回答の選択からアクティブな仮説評価と構築へとシフトさせる。
複数のベンチマークデータセットの実験は、AgentCDMが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-08-16T09:46:04Z) - Multi-Agent Collaboration via Evolving Orchestration [55.574417128944226]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMに基づくマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し,タスク状態の進化に応じて,中央集権的なオーケストレータ("puppeteer")がエージェント("puppets")を動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。