論文の概要: It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation
- arxiv url: http://arxiv.org/abs/2202.10608v1
- Date: Tue, 22 Feb 2022 01:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 04:27:00.943753
- Title: It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation
- Title(参考訳): タンゴに4本、自動カリキュラム生成のためのマルチエージェントセルフプレイ
- Authors: Yuqing Du, Pieter Abbeel, Aditya Grover
- Abstract要約: 汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 107.10235120286352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are interested in training general-purpose reinforcement learning agents
that can solve a wide variety of goals. Training such agents efficiently
requires automatic generation of a goal curriculum. This is challenging as it
requires (a) exploring goals of increasing difficulty, while ensuring that the
agent (b) is exposed to a diverse set of goals in a sample efficient manner and
(c) does not catastrophically forget previously solved goals. We propose
Curriculum Self Play (CuSP), an automated goal generation framework that seeks
to satisfy these desiderata by virtue of a multi-player game with four agents.
We extend the asymmetric curricula learning in PAIRED (Dennis et al., 2020) to
a symmetrized game that carefully balances cooperation and competition between
two off-policy student learners and two regret-maximizing teachers. CuSP
additionally introduces entropic goal coverage and accounts for the
non-stationary nature of the students, allowing us to automatically induce a
curriculum that balances progressive exploration with anti-catastrophic
exploitation. We demonstrate that our method succeeds at generating an
effective curricula of goals for a range of control tasks, outperforming other
methods at zero-shot test-time generalization to novel out-of-distribution
goals.
- Abstract(参考訳): 我々は,多種多様な目標を達成できる汎用強化学習エージェントの育成に興味がある。
このようなエージェントを効率的にトレーニングするには、ゴールカリキュラムの自動生成が必要です。
これは要求通り難しい。
a) エージェントを確実にしながら、困難を増す目的を探求すること
b) サンプルの効率的な方法で、さまざまな目標セットに曝される。
(c)以前解決した目標を壊滅的に忘れない。
4人のエージェントによるマルチプレイヤーゲームにより,これらのデシデラタを満たそうとする,自動ゴール生成フレームワークであるカリキュラム・セルフプレイ(cusp)を提案する。
我々は、PAIRED(Dennis et al., 2020)における非対称カリキュラム学習を、2人の非政治学生学習者と2人の後悔を最大化する教師の協力と競争を慎重にバランスさせるシンメトリケーションゲームに拡張する。
CuSPはまた、エントロピー的な目標カバレッジを導入し、学生の非定常的な性質を考慮し、進歩的探索と反破滅的な搾取のバランスをとるカリキュラムを自動生成する。
提案手法は,ゼロショットテストタイム一般化における他の手法を上回って,様々な制御タスクの目標を効果的に生成することに成功した。
関連論文リスト
- Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Generating Automatic Curricula via Self-Supervised Active Domain
Randomization [11.389072560141388]
我々は、目標と環境のカリキュラムを共同で学習するために、セルフプレイフレームワークを拡張します。
本手法は, エージェントがより困難なタスクや環境変化から学習する, ゴールタスクの複合カリキュラムを生成する。
本結果から,各環境に設定された目標の難易度とともに,環境の難易度を両立させるカリキュラムが,テスト対象の目標指向タスクに実用的利益をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-02-18T22:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。