論文の概要: Replay-Guided Adversarial Environment Design
- arxiv url: http://arxiv.org/abs/2110.02439v1
- Date: Wed, 6 Oct 2021 01:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:42:32.136674
- Title: Replay-Guided Adversarial Environment Design
- Title(参考訳): リプレイ誘導型逆環境設計
- Authors: Minqi Jiang, Michael Dennis, Jack Parker-Holder, Jakob Foerster,
Edward Grefenstette, Tim Rockt\"aschel
- Abstract要約: 完全にランダムなレベルを計算することで、PLRは効果的なトレーニングのために、新しく複雑なレベルを生成することができる、と我々は主張する。
我々は,新しい手法である PLR$perp$ が,アウト・オブ・ディストリビューション,ゼロショット転送タスクのスイートにおいて,より良い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 21.305857977725886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) agents may successfully generalize to new
settings if trained on an appropriately diverse set of environment and task
configurations. Unsupervised Environment Design (UED) is a promising
self-supervised RL paradigm, wherein the free parameters of an underspecified
environment are automatically adapted during training to the agent's
capabilities, leading to the emergence of diverse training environments. Here,
we cast Prioritized Level Replay (PLR), an empirically successful but
theoretically unmotivated method that selectively samples randomly-generated
training levels, as UED. We argue that by curating completely random levels,
PLR, too, can generate novel and complex levels for effective training. This
insight reveals a natural class of UED methods we call Dual Curriculum Design
(DCD). Crucially, DCD includes both PLR and a popular UED algorithm, PAIRED, as
special cases and inherits similar theoretical guarantees. This connection
allows us to develop novel theory for PLR, providing a version with a
robustness guarantee at Nash equilibria. Furthermore, our theory suggests a
highly counterintuitive improvement to PLR: by stopping the agent from updating
its policy on uncurated levels (training on less data), we can improve the
convergence to Nash equilibria. Indeed, our experiments confirm that our new
method, PLR$^{\perp}$, obtains better results on a suite of
out-of-distribution, zero-shot transfer tasks, in addition to demonstrating
that PLR$^{\perp}$ improves the performance of PAIRED, from which it inherited
its theoretical framework.
- Abstract(参考訳): 深層強化学習(Deep reinforcement Learning, RL)エージェントは、適切な多様な環境とタスク設定でトレーニングされた場合、新しい設定に適応することができる。
教師なし環境設計 (unsupervised environment design, ued) は有望な自己監督型rlパラダイムであり、エージェントの能力に対するトレーニング中に、未特定環境の自由パラメータが自動的に適応され、多様なトレーニング環境が出現する。
そこで我々は,UEDとしてランダムに生成したトレーニングレベルを選択的にサンプリングする,実験的に成功したが理論的には動機のない手法であるプライオリティライズド・レベル・リプレイ(PLR)をキャストした。
完全にランダムなレベルをキュレートすることで、plrも効果的なトレーニングのために新しく複雑なレベルを生成することができる、と主張する。
この知見は、私たちがDual Curriculum Design (DCD)と呼ぶUEDメソッドの自然なクラスを明らかにします。
重要なことに、DCDはPLRと一般的なUEDアルゴリズムであるPAIREDの両方を特別なケースとして含んでおり、同様の理論的保証を継承している。
この接続により、PLRの新たな理論が発展し、ナッシュ平衡において堅牢性を保証するバージョンが提供される。
さらに,本理論は,plrに対する極めて直観的な改善を示唆する。エージェントが未調達のレベル(少ないデータでトレーニングする)に対するポリシーを更新するのを止めることにより,nash平衡への収束性を向上させることができる。
実際、我々の実験では、新しい方法であるplr$^{\perp}$が、plr$^{\perp}$がペアリングの性能を改善し、その理論的な枠組みを継承していることを示すのに加えて、分散しないゼロショット転送タスクのスイートでより良い結果が得られることを確認しました。
関連論文リスト
- Reinforcement Learning from Bagged Reward: A Transformer-based Approach
for Instance-Level Reward Redistribution [48.92144929307152]
強化学習(RL)では、エージェントの動作毎に即時報奨信号を生成する。
多くの実世界のアプリケーションでは、即時報酬信号はエージェントによって取得できない。
本稿では,各バッグ内の文脈ニュアンスと時間的依存関係を自己認識機構を用いて解釈するトランスフォーマーベースの報酬モデルReward Bag Transformer (RBT)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - ICED: Zero-Shot Transfer in Reinforcement Learning via In-Context
Environment Design [12.79149059358717]
本研究では,RLエージェントのゼロショット一般化能力に,個々の環境インスタンスやレベルがどのような影響を及ぼすかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
次に、データ生成機構をより制御可能な、教師なし環境設計(UED)手法に注意を向ける。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning [30.533883667629887]
階層的強化学習は、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [67.07008558942792]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [13.013268095049236]
強化学習(Reinforcement Learning, RL)は、人工知能(Artificial General Intelligence, AGI)に繋がる重要な要素と考えられている。
しかしながら、RLはテスト環境と同じトレーニング環境を持つことでしばしば批判され、実世界でのRLの適用を妨げている。
この問題を解決するために、未知のテスト環境を含む可能性のある環境の組における最悪の性能を改善するために、分散ロバストRL(DRRL)を提案する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Towards Scaling Difference Target Propagation by Learning Backprop
Targets [64.90165892557776]
Different Target Propagationは,Gauss-Newton(GN)最適化と密接な関係を持つ生物学的に証明可能な学習アルゴリズムである。
本稿では、DTPがBPを近似し、階層的なフィードバックウェイトトレーニングを復元できる新しいフィードバックウェイトトレーニング手法を提案する。
CIFAR-10 と ImageNet 上で DTP が達成した最高の性能について報告する。
論文 参考訳(メタデータ) (2022-01-31T18:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。