論文の概要: LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.14483v1
- Date: Thu, 14 May 2026 07:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.68311
- Title: LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning
- Title(参考訳): LEMON: 対実強化学習による実行可能マルチエージェントオーケストレーションの学習
- Authors: Xudong Chen, Yixin Liu, Hua Wei, Kaize Ding,
- Abstract要約: 大規模言語モデル(LLM)はマルチエージェントシステムの強力な基盤となっているが、その効果はオーケストレーション設計に大きく依存している。
実行可能なオーケストレーション仕様を生成するオーケストレータであるLEMONを提案する。
MMLU、GSM8K、AQuA、MultiArith、SVAMP、HumanEvalを含む6つの推論およびコーディングベンチマークの実験は、LEMONが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 31.870185345616733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become a strong foundation for multi-agent systems, but their effectiveness depends heavily on orchestration design. Across different tasks, role design, capacity assignment, and dependency construction jointly affect both solution quality and execution efficiency. Existing approaches automate parts of this design process, yet they often optimize these decisions partially or sequentially, and rely on execution-level feedback that provides limited credit assignment for local orchestration decisions. We propose LEMON (\textbf{L}earning \textbf{E}xecutable \textbf{M}ulti-agent \textbf{O}rchestratio\textbf{N} via Counterfactual Reinforcement Learning), an LLM-based orchestrator that generates an executable orchestration specification. The specification integrates task-specific roles, customized duties, capacity levels, and dependency structure into a single deployable system. To train the orchestrator, we augment the orchestration-level GRPO objective with a localized counterfactual signal that edits role, capacity, or dependency fields and applies the resulting reward contrast only to the edited spans. Experiments on six reasoning and coding benchmarks, including MMLU, GSM8K, AQuA, MultiArith, SVAMP, and HumanEval, show that LEMON achieves state-of-the-art performance among the evaluated multi-agent orchestration methods. Our code is available at https://anonymous.4open.science/r/LEMON-B23C.
- Abstract(参考訳): 大規模言語モデル(LLM)はマルチエージェントシステムの強力な基盤となっているが、その効果はオーケストレーション設計に大きく依存している。
さまざまなタスク、役割設計、キャパシティ割り当て、依存関係構築は、ソリューションの品質と実行効率の両方に共同で影響を与えます。
既存のアプローチは、この設計プロセスの一部を自動化するが、多くの場合、これらの決定を部分的にあるいは順次に最適化し、ローカルなオーケストレーション決定に限定的なクレジット割り当てを提供する実行レベルのフィードバックに依存する。
実行可能なオーケストレーション仕様を生成するLLMベースのオーケストレータであるLEMON(\textbf{L}earning \textbf{E}xecutable \textbf{M}ulti-agent \textbf{O}rchestratio\textbf{N} via Counterfactual Reinforcement Learning)を提案する。
この仕様では、タスク固有の役割、カスタマイズされた責務、キャパシティレベル、依存関係構造を単一のデプロイ可能なシステムに統合している。
オーケストレータのトレーニングには,役割やキャパシティ,あるいは依存性のフィールドを編集し,結果として得られる報酬のコントラストを編集されたスパンにのみ適用する,局所的な反ファクト信号を用いて,オーケストレーションレベルのGRPO目標を拡張します。
MMLU、GSM8K、AQuA、MultiArith、SVAMP、HumanEvalを含む6つの推論およびコーディングベンチマークの実験は、LEMONが評価されたマルチエージェントオーケストレーション手法の中で最先端のパフォーマンスを達成することを示す。
私たちのコードはhttps://anonymous.4open.science/r/LEMON-B23Cで利用可能です。
関連論文リスト
- Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks [86.05918381895555]
関数呼び出し強化学習問題としてMASオーケストレーションを定式化する訓練時間フレームワークとしてMASOrchestraを提案する。
MAS-Orchestraでは、複雑なゴール指向のサブエージェントは呼び出し可能な関数として抽象化され、システム構造に対する大域的推論を可能にする。
分析の結果,MASはタスク構造や検証プロトコル,オーケストレータとサブエージェントの両方の機能に大きく依存していることが判明した。
論文 参考訳(メタデータ) (2026-01-21T04:57:02Z) - Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows [5.376980683850103]
本稿では,予測困難により誘導されるクエリ固有多エージェントを生成するDifficulty-Aware Agentic Orchestration (DAAO)を提案する。
DAAOは、精度と推論効率の両方において、従来のマルチエージェントシステムを上回る。
論文 参考訳(メタデータ) (2025-09-14T03:57:43Z) - Multi-Agent Collaboration via Evolving Orchestration [55.574417128944226]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMに基づくマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し,タスク状態の進化に応じて,中央集権的なオーケストレータ("puppeteer")がエージェント("puppets")を動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - Transformer-Squared: Self-adaptive LLMs [29.1326358746118]
そこで我々はTransformer-Squaredという新しい自己適応フレームワークを紹介した。
提案手法は,LoRAなどのユビキタスな手法よりもパラメータが少なく,効率も向上する。
Transformer-Squaredは、LLMの適応性とタスク固有のパフォーマンスを向上させる、スケーラブルで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-09T01:19:21Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。