論文の概要: Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design
- arxiv url: http://arxiv.org/abs/2012.02096v2
- Date: Thu, 4 Feb 2021 03:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 15:04:24.078810
- Title: Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design
- Title(参考訳): 教師なし環境設計による創発的複雑度とゼロショット転送
- Authors: Michael Dennis, Natasha Jaques, Eugene Vinitsky, Alexandre Bayen,
Stuart Russell, Andrew Critch, Sergey Levine
- Abstract要約: 本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
- 参考スコア(独自算出の注目度): 121.73425076217471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A wide range of reinforcement learning (RL) problems - including robustness,
transfer learning, unsupervised RL, and emergent complexity - require
specifying a distribution of tasks or environments in which a policy will be
trained. However, creating a useful distribution of environments is error
prone, and takes a significant amount of developer time and effort. We propose
Unsupervised Environment Design (UED) as an alternative paradigm, where
developers provide environments with unknown parameters, and these parameters
are used to automatically produce a distribution over valid, solvable
environments. Existing approaches to automatically generating environments
suffer from common failure modes: domain randomization cannot generate
structure or adapt the difficulty of the environment to the agent's learning
progress, and minimax adversarial training leads to worst-case environments
that are often unsolvable. To generate structured, solvable environments for
our protagonist agent, we introduce a second, antagonist agent that is allied
with the environment-generating adversary. The adversary is motivated to
generate environments which maximize regret, defined as the difference between
the protagonist and antagonist agent's return. We call our technique
Protagonist Antagonist Induced Regret Environment Design (PAIRED). Our
experiments demonstrate that PAIRED produces a natural curriculum of
increasingly complex environments, and PAIRED agents achieve higher zero-shot
transfer performance when tested in highly novel environments.
- Abstract(参考訳): 堅牢性、伝達学習、教師なしのRL、創発的複雑性など、幅広い強化学習(RL)の問題は、政策を訓練するタスクや環境の分布を特定する必要がある。
しかし、環境の有用なディストリビューションを作成するのはエラーを起こしやすいため、かなりの開発時間と労力を要する。
本研究では,未知のパラメータを持つ環境を開発者が提供するための代替パラダイムとして,教師なし環境設計(UED)を提案する。
ドメインのランダム化は、エージェントの学習進捗に環境の構造や難易度を生成することができず、最小限の対人訓練は、しばしば解決不可能な最悪の環境をもたらす。
プロタゴニストエージェントの構造的, 溶解性のある環境を生成するために, 環境生成敵と結びついた第2のアンタゴニストエージェントを導入する。
敵は、主人公と敵エージェントの帰還の差として定義された後悔を最大化する環境を生成する。
われわれはこの手法をPAIRED(Protagonist Antagonist induced Regret Environment Design)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは高度に新規な環境で試験した場合に高いゼロショット転送性能が得られることが示された。
関連論文リスト
- HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - Reward-Free Curricula for Training Robust World Models [37.13175950264479]
報酬のない探索から世界モデルを学ぶことは有望なアプローチであり、新しいタスクのために想像された経験を使ってポリシーをトレーニングすることができる。
我々は、ロバストな世界モデルをトレーニングするための報酬のない設定でカリキュラムを生成するという新しい問題に対処する。
環境インスタンス全体にわたる世界モデルにおける最大誤差を最小限に抑えるために,ミニマックス後悔が結びつくことを示す。
この結果は,ロバストネスのための環境横断的な知識の重み付け獲得というアルゴリズム,WAKER: Weighted Acquisition of Knowledges for Environmentsに伝達される。
論文 参考訳(メタデータ) (2023-06-15T15:40:04Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment
Mapping [0.0]
異種エージェントのチームが未知の環境をカバーするための分散制御ポリシーを学習できるようにするアクター批判アルゴリズムを提案する。
このタスクは、無人航空機のチームを配置することで危険地域における状況認識を高めたい国家の安全と緊急対応組織に関心を寄せている。
論文 参考訳(メタデータ) (2020-10-06T12:23:05Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。