論文の概要: RODE: Learning Roles to Decompose Multi-Agent Tasks
- arxiv url: http://arxiv.org/abs/2010.01523v1
- Date: Sun, 4 Oct 2020 09:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:15:27.502554
- Title: RODE: Learning Roles to Decompose Multi-Agent Tasks
- Title(参考訳): RODE: マルチエージェントタスクを分解する役割を学ぶ
- Authors: Tonghan Wang, Tarun Gupta, Anuj Mahajan, Bei Peng, Shimon Whiteson,
Chongjie Zhang
- Abstract要約: ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
- 参考スコア(独自算出の注目度): 69.56458960841165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Role-based learning holds the promise of achieving scalable multi-agent
learning by decomposing complex tasks using roles. However, it is largely
unclear how to efficiently discover such a set of roles. To solve this problem,
we propose to first decompose joint action spaces into restricted role action
spaces by clustering actions according to their effects on the environment and
other agents. Learning a role selector based on action effects makes role
discovery much easier because it forms a bi-level learning hierarchy -- the
role selector searches in a smaller role space and at a lower temporal
resolution, while role policies learn in significantly reduced primitive
action-observation spaces. We further integrate information about action
effects into the role policies to boost learning efficiency and policy
generalization. By virtue of these advances, our method (1) outperforms the
current state-of-the-art MARL algorithms on 10 of the 14 scenarios that
comprise the challenging StarCraft II micromanagement benchmark and (2)
achieves rapid transfer to new environments with three times the number of
agents. Demonstrative videos are available at
https://sites.google.com/view/rode-marl .
- Abstract(参考訳): ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現することを約束する。
しかし、そのような役割を効率的に発見する方法はほとんど分かっていない。
そこで本研究では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
アクションエフェクトに基づいたロールセレクタの学習は、ロールセレクタがより小さいロール空間と低い時間解像度で検索すると同時に、ロールポリシーが大幅に縮小された原始的なアクションオブザーバ空間で学習するため、ロール発見をより容易にする。
さらに,行動効果に関する情報を役割ポリシーに統合し,学習効率の向上と政策の一般化を図る。
これらの進歩により,本手法は,starcraft iiのマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて,現状のmarlアルゴリズムを上回り,(2)エージェント数の3倍の新しい環境への迅速な移行を実現する。
デモ動画はhttps://sites.google.com/view/rode-marlで閲覧できる。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - Action Pick-up in Dynamic Action Space Reinforcement Learning [6.15205100319133]
我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
論文 参考訳(メタデータ) (2023-04-03T10:55:16Z) - CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action
Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。
シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文 参考訳(メタデータ) (2022-11-28T23:20:47Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Learning to Transfer Role Assignment Across Team Sizes [48.43860606706273]
チーム規模で役割の割り当てと移譲を学ぶためのフレームワークを提案する。
ロールベースの信用割当構造を再利用することで、より大きな強化学習チームの学習プロセスが促進されることを示す。
論文 参考訳(メタデータ) (2022-04-17T11:22:01Z) - Hierarchically Decoupled Imitation for Morphological Transfer [95.19299356298876]
形態学的に単純なエージェントから学習情報を転送することで、より複雑なエージェントのサンプル効率を大幅に向上させることができることを示す。
まず、より単純なエージェントの低レベルを模倣するために複雑なエージェントの低レベルをインセンティブ化すると、ゼロショット高レベル転送が大幅に改善されることを示す。
第2に,高レベルのKL正規化学習が学習を安定させ,モデム崩壊を防ぐことを示す。
論文 参考訳(メタデータ) (2020-03-03T18:56:49Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。