論文の概要: Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2302.03429v1
- Date: Tue, 7 Feb 2023 12:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:34:48.547920
- Title: Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習のための熟練人口カリキュラムを目指して
- Authors: Rundong Wang, Longtao Zheng, Wei Qiu, Bowei He, Bo An, Zinovi
Rabinovich, Yujing Hu, Yingfeng Chen, Tangjie Lv, Changjie Fan
- Abstract要約: 我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
- 参考スコア(独自算出の注目度): 42.540853953923495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multi-agent reinforcement learning (MARL) allow agents to
coordinate their behaviors in complex environments. However, common MARL
algorithms still suffer from scalability and sparse reward issues. One
promising approach to resolving them is automatic curriculum learning (ACL).
ACL involves a student (curriculum learner) training on tasks of increasing
difficulty controlled by a teacher (curriculum generator). Despite its success,
ACL's applicability is limited by (1) the lack of a general student framework
for dealing with the varying number of agents across tasks and the sparse
reward problem, and (2) the non-stationarity of the teacher's task due to
ever-changing student strategies. As a remedy for ACL, we introduce a novel
automatic curriculum learning framework, Skilled Population Curriculum (SPC),
which adapts curriculum learning to multi-agent coordination. Specifically, we
endow the student with population-invariant communication and a hierarchical
skill set, allowing it to learn cooperation and behavior skills from distinct
tasks with varying numbers of agents. In addition, we model the teacher as a
contextual bandit conditioned by student policies, enabling a team of agents to
change its size while still retaining previously acquired skills. We also
analyze the inherent non-stationarity of this multi-agent automatic curriculum
teaching problem and provide a corresponding regret bound. Empirical results
show that our method improves the performance, scalability and sample
efficiency in several MARL environments.
- Abstract(参考訳): マルチエージェント強化学習(MARL)の最近の進歩により、エージェントは複雑な環境での行動を調整することができる。
しかし、一般的なMARLアルゴリズムは、まだスケーラビリティと少ない報酬の問題に悩まされている。
それらを解決するための有望なアプローチは、自動カリキュラム学習(ACL)である。
aclは、教師によって制御される困難を増大させるタスクに関する学生(カリキュラム学習者)の訓練を含む。
その成功にもかかわらず、ACLの適用性は、(1)タスク間のエージェント数やスパース報酬問題に対処するための一般学生の枠組みが欠如していること、(2)学生戦略の変化による教師のタスクの非定常性に制限されている。
本稿では,aclのリメディエーションとして,カリキュラム学習をマルチエージェントコーディネーションに適応させる,新しい自動カリキュラム学習フレームワークであるspcを導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
さらに,教師を学生政策によって条件付けられた文脈的盗賊としてモデル化し,エージェントのチームが以前獲得したスキルを維持しながらそのサイズを変えられるようにした。
また,この多エージェント自動カリキュラム指導問題の本質的非定常性を分析し,それに対応する後悔の束縛を与える。
実験の結果,複数のmarl環境において性能,スケーラビリティ,サンプル効率が向上した。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Enabling Multi-Agent Transfer Reinforcement Learning via Scenario
Independent Representation [0.7366405857677227]
マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。
本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。
スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-02-13T02:48:18Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - Variational Automatic Curriculum Learning for Sparse-Reward Cooperative
Multi-Agent Problems [42.973910399533054]
協調型マルチエージェント強化学習の課題を解決するために,カリキュラム学習アルゴリズムである変分自動カリキュラム学習(VACL)を導入する。
VACLアルゴリズムはこの変分パラダイムを,タスク拡張とエンティティ進行という2つの実践的要素で実現している。
実験の結果,VACLはスパース・リワード問題の集合を多数のエージェントで解くことがわかった。
論文 参考訳(メタデータ) (2021-11-08T16:35:08Z) - SS-MAIL: Self-Supervised Multi-Agent Imitation Learning [18.283839252425803]
アルゴリズムの2つのファミリー - 行動クローン(BC)と敵対的模倣学習(AIL)-
BCアプローチは、軌道生成問題のシーケンシャルな決定性を無視しているため、複雑なエラーに悩まされる。
AILメソッドは、トレーニングダイナミクスの不安定さに悩まされている。
我々は、よりリッチな報酬関数を近似するように差別者を奨励する、新たな自己監督的損失を導入する。
論文 参考訳(メタデータ) (2021-10-18T01:17:50Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Mutual Information Based Knowledge Transfer Under State-Action Dimension
Mismatch [14.334987432342707]
本研究では,教師と生徒が任意に状態空間と行動空間を共有できるトランスファー学習の枠組みを提案する。
このミスマッチに対処するため,教師の方針や価値ネットワークから知識を体系的に抽出できる埋め込みを生成する。
我々は,教師と生徒が異なる状態空間と行動空間を持つ状況下で,伝達学習を成功させることを実証した。
論文 参考訳(メタデータ) (2020-06-12T09:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。