論文の概要: Evolving Curricula with Regret-Based Environment Design
- arxiv url: http://arxiv.org/abs/2203.01302v3
- Date: Sat, 30 Sep 2023 18:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 21:39:32.346759
- Title: Evolving Curricula with Regret-Based Environment Design
- Title(参考訳): レグレット型環境設計によるカリキュラムの進化
- Authors: Jack Parker-Holder, Minqi Jiang, Michael Dennis, Mikayel Samvelyan,
Jakob Foerster, Edward Grefenstette, Tim Rockt\"aschel
- Abstract要約: 我々は、原則化された後悔に基づくカリキュラムで進化の力を活用することを提案する。
我々の手法はエージェントの能力の最前線で常にレベルを発生させることを試みており、その結果、単純から始まるがますます複雑になるキュリキュラが生まれる。
- 参考スコア(独自算出の注目度): 37.70275057075986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It remains a significant challenge to train generally capable agents with
reinforcement learning (RL). A promising avenue for improving the robustness of
RL agents is through the use of curricula. One such class of methods frames
environment design as a game between a student and a teacher, using
regret-based objectives to produce environment instantiations (or levels) at
the frontier of the student agent's capabilities. These methods benefit from
their generality, with theoretical guarantees at equilibrium, yet they often
struggle to find effective levels in challenging design spaces. By contrast,
evolutionary approaches seek to incrementally alter environment complexity,
resulting in potentially open-ended learning, but often rely on domain-specific
heuristics and vast amounts of computational resources. In this paper we
propose to harness the power of evolution in a principled, regret-based
curriculum. Our approach, which we call Adversarially Compounding Complexity by
Editing Levels (ACCEL), seeks to constantly produce levels at the frontier of
an agent's capabilities, resulting in curricula that start simple but become
increasingly complex. ACCEL maintains the theoretical benefits of prior
regret-based methods, while providing significant empirical gains in a diverse
set of environments. An interactive version of the paper is available at
accelagent.github.io.
- Abstract(参考訳): 一般に有能なエージェントを強化学習(RL)で訓練することは依然として重要な課題である。
rlエージェントのロバスト性を改善するための有望な道は、curriculaを使用することである。
そのような方法の1つは、学生と教師の間のゲームとして環境設計をフレーム化し、後悔に基づく目標を用いて、学生エージェントの能力のフロンティアにおいて環境インスタンス(またはレベル)を生成する。
これらの手法は、その一般性、理論的保証、均衡の恩恵を受けるが、しばしば挑戦的な設計空間において効果的なレベルを見つけるのに苦労する。
対照的に、進化的アプローチは環境の複雑さを漸進的に変化させ、潜在的にオープンエンド学習をもたらすが、しばしばドメイン固有のヒューリスティックや膨大な計算資源に依存している。
本稿では,原則的,後悔に基づくカリキュラムにおける進化の力を活用することを提案する。
我々のアプローチは、Adversarially Compounding Complexity by Editing Levels (ACCEL)と呼ばれ、エージェントの能力の最前線で常にレベルを生成しようとしており、その結果、シンプルに始まり、ますます複雑になる。
ACCELは、過去の後悔に基づく手法の理論的利点を維持し、多様な環境において大きな経験的利益をもたらす。
この論文のインタラクティブバージョンはaccelagent.github.ioで入手できる。
関連論文リスト
- Learning Curricula in Open-Ended Worlds [17.138779075998084]
この論文は、Unsupervised Environment Design (UED)と呼ばれる手法のクラスを開発する。
環境設計空間が与えられたら、UEDは自動的に訓練環境の無限のシーケンスやカリキュラムを生成する。
本論文は,UEDオートキュリキュラがRL薬を産生し,ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-03T16:44:00Z) - Enhancing the Hierarchical Environment Design via Generative Trajectory
Modeling [8.256433006393243]
本稿では,資源制約下での環境設計のための階層型MDPフレームワークを提案する。
低レベルの学生エージェントに適した訓練環境を生成する上位レベルのRL教師エージェントで構成されている。
提案手法は,エージェントと環境間の資源集約的な相互作用を著しく低減する。
論文 参考訳(メタデータ) (2023-09-30T08:21:32Z) - On the Power of Pre-training for Generalization in RL: Provable Benefits
and Hardness [47.09873295916592]
強化学習(RL)の一般化は、目標環境に一般化する訓練中にエージェントを学習することを目的としている。
本稿では,RLの一般化を理論的側面から考察する。
対象環境との相互作用が許されていない場合、我々は得られる最善策が平均的な意味でほぼ最適であると証明し、この目標を達成するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-19T10:58:24Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。