論文の概要: Learning to Orchestrate Agents in Natural Language with the Conductor
- arxiv url: http://arxiv.org/abs/2512.04388v1
- Date: Thu, 04 Dec 2025 02:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.955868
- Title: Learning to Orchestrate Agents in Natural Language with the Conductor
- Title(参考訳): 導体を用いた自然言語におけるエージェントのオーケストレーション学習
- Authors: Stefan Nielsen, Edoardo Cetin, Peter Schwendeman, Qi Sun, Jinglue Xu, Yujin Tang,
- Abstract要約: 言語モデル間の強力な協調戦略を自動的に発見するために、強化学習で訓練された新しい種類の導体モデルを導入する。
7Bコンダクタは、強力な作業者LLMのプール上の最適調整戦略を学習することにより、個々の作業者以上のパフォーマンス向上を実現する。
- 参考スコア(独自算出の注目度): 20.55517425459279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Powerful large language models (LLMs) from different providers have been expensively trained and finetuned to specialize across varying domains. In this work, we introduce a new kind of Conductor model trained with reinforcement learning to automatically discover powerful coordination strategies among LLMs. Our Conductor learns not only to design targeted communication topologies for effective agent-to-agent collaboration, but also to prompt engineer focused instructions to the LLMs to maximally leverage their individual capabilities. We show that, by learning optimal coordination strategies over pools of powerful worker LLMs, a 7B Conductor achieves significant performance gains beyond any individual worker, attaining state-of-the-art results in challenging reasoning benchmarks, such as LiveCodeBench and GPQA. By training with randomized agent pools, our conductor effectively adapts to arbitrary sets of open- and closed-source agents, meeting any user requirements. Furthermore, allowing the Conductor to select itself as a worker gives rise to recursive topologies, elevating performance with a new form of dynamic test-time scaling through online iterative adaptation. More broadly, ours is among the early work demonstrating language model coordination can be unlocked through RL, where powerful coordination strategies emerge naturally in LLMs through pure end-to-end reward maximization.
- Abstract(参考訳): さまざまなプロバイダの強力な大規模言語モデル(LLM)は、さまざまなドメインにまたがる専門化のために、高価に訓練され、微調整されている。
本研究では,LLM間の協調戦略を自動的に発見するために,強化学習で訓練した新しい導体モデルを提案する。
我々のConductorは、効果的なエージェント対エージェントのコラボレーションのためにターゲットとなる通信トポロジを設計するだけでなく、エンジニアがLLMに焦点を当てて、個々の能力を最大限に活用するよう促すことも学んでいます。
本研究では,強力な作業者LLMのプール上での最適コーディネーション戦略を学習することにより,7Bコンダクタが個々の作業者よりも大きなパフォーマンス向上を実現し,LiveCodeBenchやGPQAといった問題推論ベンチマークの最先端結果が得られることを示す。
ランダム化されたエージェントプールでトレーニングすることで、私たちの導体は任意のオープンソースエージェントとクローズドソースエージェントのセットに効果的に適応し、ユーザの要求を満たすことができます。
さらに、Conductorがワーカとして自分自身を選択できるようにすることで、再帰的なトポロジが生まれ、オンライン反復適応による動的テストタイムスケーリングの新たな形式によるパフォーマンスが向上する。
より広範に言えば、言語モデルのコーディネーションをRLを通じてアンロックできることを示す初期の作業のひとつであり、そこでは純粋にエンドツーエンドの報酬の最大化を通じて、LLMに強力なコーディネーション戦略が自然に現れる。
関連論文リスト
- How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。
本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文 参考訳(メタデータ) (2025-07-11T18:34:07Z) - Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。
LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文 参考訳(メタデータ) (2025-05-21T09:35:43Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。