論文の概要: Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
- arxiv url: http://arxiv.org/abs/2605.02801v1
- Date: Mon, 04 May 2026 16:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.414225
- Title: Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
- Title(参考訳): オーケストレーショントレースによるLLMに基づくマルチエージェントシステムの強化学習
- Authors: Chenchen Zhang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、独立したツールユーザから調整されたチームへと進化する。
強化学習は、個々のアクションだけでなく、作業の生成、委譲、通信、集約、停止の方法を最適化する必要がある。
本稿では,オーケストレーショントレースを用いたマルチエージェントシステムの強化学習について検討する。
- 参考スコア(独自算出の注目度): 3.651838585096184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language model (LLM) agents evolve from isolated tool users into coordinated teams, reinforcement learning (RL) must optimize not only individual actions but also how work is spawned, delegated, communicated, aggregated, and stopped. This paper studies RL for LLM-based multi-agent systems through orchestration traces: temporal interaction graphs whose events include sub-agent spawning, delegation, communication, tool use, return, aggregation, and stopping decisions. Using this lens, we identify three technical axes. First, reward design spans eight families, including orchestration rewards for parallelism speedup, split correctness, and aggregation quality. Second, reward and credit signals attach to eight credit- or signal-bearing units from token to team; explicit counterfactual message-level credit remains especially sparse in our curated pool. Third, orchestration learning decomposes into five sub-decisions: when to spawn, whom to delegate to, how to communicate, how to aggregate, and when to stop. In our curated pool as of May 4, 2026, we found no explicit RL training method for the stopping decision. We connect academic methods to public industrial evidence from Kimi Agent Swarm, OpenAI Codex, and Anthropic Claude Code. The resulting scale gap is a gap between publicly reported deployment envelopes and open academic evaluation regimes, not independent verification of industrial training traces. We release the artifact at https://github.com/xxzcc/awesome-llm-mas-rl, including an 84-entry tagged paper pool, a 32-record exclusion log, scripted corpus statistics, and a minimal JSON schema for replayable orchestration traces.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントが独立したツールユーザからコーディネートされたチームへと進化するにつれて、強化学習(RL)は個々のアクションだけでなく、作業の生成、委譲、通信、集約、停止の方法も最適化する必要がある。
本稿では, サブエージェント生成, デリゲート, 通信, ツール使用, 戻り, 集約, 停止などのイベントを含む時間的相互作用グラフを用いて, LLMに基づくマルチエージェントシステムのRLについて検討する。
このレンズを用いて、3つの技術軸を識別する。
まず、報酬設計は、並列処理のスピードアップ、分割の正確性、集約品質のためのオーケストレーション報酬を含む8つのファミリーにまたがる。
第2に、報酬とクレジットの信号は、トークンからチームへの8つのクレジットまたはシグナルを持つユニットにアタッチされます。
第三に、オーケストレーション学習は、いつ生成するか、誰に委譲するか、どのように通信するか、どのように集約するか、いつ停止するかの5つのサブ決定に分解される。
2026年5月4日現在, 硬化したプールでは, 明確なRLトレーニング法は見つからなかった。
我々は学術的手法を、Kimi Agent Swarm, OpenAI Codex, Anthropic Claude Codeの公開産業証拠に結びつける。
結果として生じるスケールギャップは、公開報告されたデプロイメントエンベロープとオープンな学術評価体制のギャップであり、産業訓練トレースの独立した検証ではない。
84エントリのタグ付けされた紙プール、32レコードの排他ログ、スクリプト化されたコーパス統計、再生可能なオーケストレーショントレースのための最小限のJSONスキーマを含む。
関連論文リスト
- Bian Que: An Agentic Framework with Flexible Skill Arrangement for Online System Operations [19.829321356625428]
Bian Queは、監視、警告応答、根本原因分析のためのエージェントフレームワークである。
これは中国の主要なショートビデオプラットフォームであるKuaiShouのeコマース検索エンジン上に展開された。
警告ボリュームを75%削減し、80%の根源解析精度を実現し、平均分解時間を50%以上削減する。
論文 参考訳(メタデータ) (2026-04-29T15:35:01Z) - OpenClaw-RL: Train Any Agent Simply by Talking [54.06773485601523]
次状態信号は普遍的であり、ポリシーはそれらすべてから同時に学習することができる。
個人的な会話、端末の実行、GUIインタラクション、SWEタスク、ツールコールトレースは、別個のトレーニング問題ではない。
OpenClaw-RLは、エージェントを単に使用することで改善し、ユーザのリクエリ、修正、明示的なフィードバックから会話信号を復元する。
論文 参考訳(メタデータ) (2026-03-10T18:59:01Z) - SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning [2.064923532131528]
部分観察型マルチエージェント強化学習(MARL)におけるコミュニケーションによるコーディネーションの改善
textbfScalable textbfCommunication via textbfUtility-guided textbfTemporal grouping)
エージェントは環境行動、決定の送付、受取者選択という3つの方針で訓練される。
論文 参考訳(メタデータ) (2026-03-05T05:33:28Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。
我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。
提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。