論文の概要: From Solo to Symphony: Orchestrating Multi-Agent Collaboration with Single-Agent Demos
- arxiv url: http://arxiv.org/abs/2511.02762v1
- Date: Tue, 04 Nov 2025 17:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.126856
- Title: From Solo to Symphony: Orchestrating Multi-Agent Collaboration with Single-Agent Demos
- Title(参考訳): ソロから交響曲:シングルエージェントデモによるマルチエージェントコラボレーションのオーケストレーション
- Authors: Xun Wang, Zhuoran Li, Yanshan Lin, Hai Zhong, Longbo Huang,
- Abstract要約: Solo-to-Collaborative RL (SoCo) は、ソロ知識を協調学習に伝達するフレームワークである。
SoCoはバックボーンアルゴリズムのトレーニング効率とパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 33.1752922094133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a team of agents from scratch in multi-agent reinforcement learning (MARL) is highly inefficient, much like asking beginners to play a symphony together without first practicing solo. Existing methods, such as offline or transferable MARL, can ease this burden, but they still rely on costly multi-agent data, which often becomes the bottleneck. In contrast, solo experiences are far easier to obtain in many important scenarios, e.g., collaborative coding, household cooperation, and search-and-rescue. To unlock their potential, we propose Solo-to-Collaborative RL (SoCo), a framework that transfers solo knowledge into cooperative learning. SoCo first pretrains a shared solo policy from solo demonstrations, then adapts it for cooperation during multi-agent training through a policy fusion mechanism that combines an MoE-like gating selector and an action editor. Experiments across diverse cooperative tasks show that SoCo significantly boosts the training efficiency and performance of backbone algorithms. These results demonstrate that solo demonstrations provide a scalable and effective complement to multi-agent data, making cooperative learning more practical and broadly applicable.
- Abstract(参考訳): マルチエージェント強化学習(MARL)において、スクラッチからエージェントのチームを訓練するのは非常に非効率である。
オフラインや転送可能なMARLのような既存のメソッドは、この負担を軽減することができるが、コストのかかるマルチエージェントデータに依存しているため、ボトルネックになることが多い。
対照的に、ソロ体験は、例えば、協調コーディング、家庭の協力、検索と救助など、多くの重要なシナリオにおいて、はるかに容易に得ることができる。
その可能性を解き明かすため,ソロ知識を協調学習に伝達するフレームワークであるソロ・ツー・コラボレーティブ・RL(SoCo)を提案する。
SoCoはまず、ソロデモから共有ソロポリシーを事前トレーニングし、その後、MoEライクなゲーティングセレクタとアクションエディタを組み合わせたポリシー融合メカニズムを通じて、マルチエージェントトレーニング中の協力に適応する。
多様な協調作業による実験は、SoCoがバックボーンアルゴリズムのトレーニング効率とパフォーマンスを大幅に向上させることを示している。
これらの結果から,単体実験は多エージェントデータに対するスケーラブルで効果的な補完を提供し,協調学習をより実用的で広く適用できることを示した。
関連論文リスト
- Everyone Contributes! Incentivizing Strategic Cooperation in Multi-LLM Systems via Sequential Public Goods Games [4.3891974840097925]
多エージェント協調系列公共財ゲーム(MAC-SPGG)
マルチLLMアンサンブルにおける協調を体系的に動機付けるための,ゲーム理論に基づく新しい強化学習フレームワークを提案する。
本研究は,スケーラブルで堅牢なマルチエージェント言語生成のための構造的,インセンティブに整合したMAC-SPGG協力の力を強調した。
論文 参考訳(メタデータ) (2025-08-04T05:36:07Z) - Multi-Agent Collaboration via Evolving Orchestration [55.574417128944226]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMに基づくマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し,タスク状態の進化に応じて,中央集権的なオーケストレータ("puppeteer")がエージェント("puppets")を動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-05-26T07:02:17Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Enabling Multi-Robot Collaboration from Single-Human Guidance [5.016558275355615]
本研究では,人間一人の専門知識を活用することで,マルチエージェントシステムにおける協調行動の効率的な学習方法を提案する。
本研究では,人間の操作者が短時間に制御エージェントを動的に切り替えることによって,効果的に協調学習ができることを示す。
実験の結果,本手法は,人的指導を40分で最大58%向上させることができた。
論文 参考訳(メタデータ) (2024-09-30T00:02:56Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Group-Agent Reinforcement Learning [12.915860504511523]
複数の地理的に分散したエージェントがそれぞれのRLタスクを協調的に実行すれば、各エージェントの強化学習プロセスに大きく貢献できる。
グループエージェント強化学習(GARL)のための分散RLフレームワークDDAL(Decentralized Distributed Asynchronous Learning)を提案する。
論文 参考訳(メタデータ) (2022-02-10T16:40:59Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。