論文の概要: Stabilizing Unsupervised Environment Design with a Learned Adversary
- arxiv url: http://arxiv.org/abs/2308.10797v1
- Date: Mon, 21 Aug 2023 15:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 12:50:03.997746
- Title: Stabilizing Unsupervised Environment Design with a Learned Adversary
- Title(参考訳): 学習者による教師なし環境設計の安定化
- Authors: Ishita Mediratta, Minqi Jiang, Jack Parker-Holder, Michael Dennis,
Eugene Vinitsky, Tim Rockt\"aschel
- Abstract要約: 汎用エージェントの訓練における主な課題は、環境変動に対する広範な一般化と堅牢性を促進する訓練タスクの設計である。
教師なし環境設計(UED)の先駆的なアプローチは、強化学習を使用して教師の政策を訓練し、ゼロからタスクを設計するPAIREDである。
PAIREDは理論上の強い支持にもかかわらず、実用性能を阻害する様々な課題に悩まされている。
我々は、PAIREDが最先端の手法に適合または超えることを可能にし、いくつかの確立された手続き的環境において堅牢なエージェントを生産する。
- 参考スコア(独自算出の注目度): 28.426666219969555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in training generally-capable agents is the design of
training tasks that facilitate broad generalization and robustness to
environment variations. This challenge motivates the problem setting of
Unsupervised Environment Design (UED), whereby a student agent trains on an
adaptive distribution of tasks proposed by a teacher agent. A pioneering
approach for UED is PAIRED, which uses reinforcement learning (RL) to train a
teacher policy to design tasks from scratch, making it possible to directly
generate tasks that are adapted to the agent's current capabilities. Despite
its strong theoretical backing, PAIRED suffers from a variety of challenges
that hinder its practical performance. Thus, state-of-the-art methods currently
rely on curation and mutation rather than generation of new tasks. In this
work, we investigate several key shortcomings of PAIRED and propose solutions
for each shortcoming. As a result, we make it possible for PAIRED to match or
exceed state-of-the-art methods, producing robust agents in several established
challenging procedurally-generated environments, including a partially-observed
maze navigation task and a continuous-control car racing environment. We
believe this work motivates a renewed emphasis on UED methods based on learned
models that directly generate challenging environments, potentially unlocking
more open-ended RL training and, as a result, more general agents.
- Abstract(参考訳): 汎用エージェントの訓練における重要な課題は、環境変動に対する広範な一般化と堅牢性を促進する訓練タスクの設計である。
この課題は教師エージェントが提案するタスクの適応分布を学習する非教師環境設計 (unsupervised environment design, ued) の課題設定を動機付ける。
UEDの先駆的なアプローチは、強化学習(RL)を使用して、スクラッチからタスクを設計するための教師のポリシーを訓練し、エージェントの現在の能力に適応したタスクを直接生成できるようにする、PAIREDである。
PAIREDは理論上の強い支持にもかかわらず、実用性能を妨げる様々な課題に悩まされている。
したがって、現在最先端の手法は、新しいタスクを生成するのではなく、キュレーションと突然変異に依存している。
本研究では,PAIREDのいくつかの重要な欠点を調査し,各欠点に対する解決策を提案する。
その結果、ペアリングによる最先端の手法の一致や超過が可能となり、部分的に監視された迷路ナビゲーションタスクや連続制御カーレース環境など、いくつかの確立された手続き的生成環境において頑健なエージェントを生成できる。
この研究は、よりオープンなRLトレーニングを開放し、結果としてより一般的なエージェントを解放する可能性のある、挑戦的な環境を直接生成する学習モデルに基づく、UEDメソッドへの新たな重点を動機付けていると考えています。
関連論文リスト
- Adversarial Environment Design via Regret-Guided Diffusion Models [13.651184780336623]
環境変化に対して堅牢な訓練エージェントは、深い強化学習において重要な課題である。
非教師なし環境設計(UED)は、エージェントの能力に合わせた一連のトレーニング環境を生成することで、この問題に対処するために最近登場した。
後悔誘導拡散モデル(ADD)を用いた新しいUEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:35:03Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文 参考訳(メタデータ) (2020-07-01T09:38:51Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。