論文の概要: UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2605.26646v1
- Date: Tue, 26 May 2026 07:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.729123
- Title: UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems
- Title(参考訳): UnityMAS-O: LLMベースのマルチエージェントシステムのための汎用RL最適化フレームワーク
- Authors: Yiqun Chen, Wei Yang, Erhan Zhang, Shijie Wang, Qi Liu, Zechun Niu, Bin Zhang, Haitao Li, Rui Li, Lingyong Yan, Jinyuan Feng, Biqing Qi, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu, Jiaxin Mao,
- Abstract要約: LLMに基づくマルチエージェントシステムのための汎用RL最適化フレームワークUnityMAS-Oを提案する。
UnityMAS-Oは、単一応答やポリシーの軌道ではなく、完全なランタイムを最適化単位として扱う。
UnityMAS-Oは多様なマルチエージェントシステムからトレーニング可能なマルチエージェントRLシステムへ変換するための再利用可能な基板として機能することを示す。
- 参考スコア(独自算出の注目度): 46.48622741253505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems decompose complex tasks into interacting roles, but most remain manually orchestrated by prompts, tools, and control rules, while agents are rarely optimized through a unified reinforcement learning interface. Existing RL post-training frameworks mainly target single-policy optimization and lack abstractions for user-defined multi-agent workflows, structured interaction, role-specific credit assignment, and configurable parameter sharing. We present UnityMAS-O, a general RL optimization framework for LLM-based multi-agent systems. UnityMAS-O treats the complete workflow as the optimization unit, rather than a single response or policy trajectory. It represents workflows through four first-class objects: logical agent roles, graph trajectories, user-defined rewards, and agent--model mappings. This decouples logical agents from physical model parameters, supporting full sharing, full separation, and partial sharing, with rewards assigned at role, turn, and trajectory levels. UnityMAS-O extends verl with a Ray-based star-topology runtime. A central controller executes workflows, invokes tools, records structured trajectories, and assembles rewards; model-local worker groups handle rollout, buffering, advantage computation, and distributed PPO-style updates. Users can define agents, workflows, model mappings, and rewards without rewriting the optimization infrastructure. We instantiate UnityMAS-O on retrieval-augmented QA, iterative agentic search, and reflective code generation. Across Natural Questions, HotpotQA, and held-out code tasks, multi-agent RL improves manually specified workflows after optimization, with especially large gains for smaller models and strict code all-passed metrics. These results show that UnityMAS-O can serve as a reusable substrate for converting diverse LLM-based multi-agent workflows into trainable multi-agent RL systems.
- Abstract(参考訳): LLMベースのマルチエージェントシステムは複雑なタスクを相互作用する役割に分解するが、ほとんどのエージェントはプロンプト、ツール、制御ルールによって手作業で編成される。
既存のRLポストトレーニングフレームワークは、主に単一政治最適化をターゲットとし、ユーザ定義のマルチエージェントワークフロー、構造化インタラクション、ロール固有のクレジット割り当て、設定可能なパラメータ共有の抽象化を欠いている。
LLMに基づくマルチエージェントシステムのための汎用RL最適化フレームワークUnityMAS-Oを提案する。
UnityMAS-Oは、単一の応答やポリシーの軌道ではなく、完全なワークフローを最適化単位として扱う。
論理エージェントロール、グラフトラジェクトリ、ユーザ定義の報酬、エージェントモデルマッピングの4つのファーストクラスのオブジェクトを通じてワークフローを表現する。
これは物理モデルパラメータから論理エージェントを分離し、完全な共有、完全な分離、部分的な共有をサポートし、ロール、ターン、トラジェクトリレベルでの報酬を割り当てる。
UnityMAS-Oは、レイベースの恒星トポロジーランタイムでVerlを拡張している。
中央のコントローラはワークフローを実行し、ツールを呼び出し、構造化されたトラジェクトリを記録し、報酬をアセンブルする。
最適化インフラストラクチャを書き換えることなく、エージェント、ワークフロー、モデルマッピング、報酬を定義することができる。
検索強化QA、反復エージェント検索、反射コード生成においてUnityMAS-Oをインスタンス化する。
Natural Questions、HotpotQA、ホールドアウトされたコードタスクを含む、マルチエージェントRLは、最適化後の手動で指定されたワークフローを改善する。
これらの結果から, UnityMAS-O は多様な LLM ベースのマルチエージェントワークフローをトレーニング可能なマルチエージェント RL システムに変換するための再利用可能な基板として機能することを示す。
関連論文リスト
- Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective [3.9457939396735573]
Heliumはワークフロー対応のサービスフレームワークで、エージェントワークロードをクエリプランとしてモデル化し、LLM呼び出しを第一級演算子として扱う。
Heliumは従来のクエリ最適化の原則をLLMサービスにブリッジし、最先端のエージェントサービスシステムよりも最大1.56倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-03-17T04:03:18Z) - Rethinking the Value of Multi-Agent Workflow: A Strong Single Agent Baseline [38.16649115214312]
一つのエージェントがKVキャッシュの再利用による効率上の利点を生かして均一性を実現できることを示す。
本稿では,単一エージェントの実行を自動的に調整し,推論コストを削減するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-18T08:16:09Z) - Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO [24.532870400949424]
現在の訓練方法は、システム内のすべてのエージェントに対して統一された大きな言語モデルを訓練する。
これにより、異なるエージェントの基本的な分布が異なるため、パフォーマンスが制限される可能性がある。
垂直多エージェントシステムに対するグループ相対ポリシー最適化の階層的拡張であるM-GRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T12:06:30Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。