論文の概要: Replay-Guided Adversarial Environment Design
- arxiv url: http://arxiv.org/abs/2110.02439v1
- Date: Wed, 6 Oct 2021 01:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:42:32.136674
- Title: Replay-Guided Adversarial Environment Design
- Title(参考訳): リプレイ誘導型逆環境設計
- Authors: Minqi Jiang, Michael Dennis, Jack Parker-Holder, Jakob Foerster,
Edward Grefenstette, Tim Rockt\"aschel
- Abstract要約: 完全にランダムなレベルを計算することで、PLRは効果的なトレーニングのために、新しく複雑なレベルを生成することができる、と我々は主張する。
我々は,新しい手法である PLR$perp$ が,アウト・オブ・ディストリビューション,ゼロショット転送タスクのスイートにおいて,より良い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 21.305857977725886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) agents may successfully generalize to new
settings if trained on an appropriately diverse set of environment and task
configurations. Unsupervised Environment Design (UED) is a promising
self-supervised RL paradigm, wherein the free parameters of an underspecified
environment are automatically adapted during training to the agent's
capabilities, leading to the emergence of diverse training environments. Here,
we cast Prioritized Level Replay (PLR), an empirically successful but
theoretically unmotivated method that selectively samples randomly-generated
training levels, as UED. We argue that by curating completely random levels,
PLR, too, can generate novel and complex levels for effective training. This
insight reveals a natural class of UED methods we call Dual Curriculum Design
(DCD). Crucially, DCD includes both PLR and a popular UED algorithm, PAIRED, as
special cases and inherits similar theoretical guarantees. This connection
allows us to develop novel theory for PLR, providing a version with a
robustness guarantee at Nash equilibria. Furthermore, our theory suggests a
highly counterintuitive improvement to PLR: by stopping the agent from updating
its policy on uncurated levels (training on less data), we can improve the
convergence to Nash equilibria. Indeed, our experiments confirm that our new
method, PLR$^{\perp}$, obtains better results on a suite of
out-of-distribution, zero-shot transfer tasks, in addition to demonstrating
that PLR$^{\perp}$ improves the performance of PAIRED, from which it inherited
its theoretical framework.
- Abstract(参考訳): 深層強化学習(Deep reinforcement Learning, RL)エージェントは、適切な多様な環境とタスク設定でトレーニングされた場合、新しい設定に適応することができる。
教師なし環境設計 (unsupervised environment design, ued) は有望な自己監督型rlパラダイムであり、エージェントの能力に対するトレーニング中に、未特定環境の自由パラメータが自動的に適応され、多様なトレーニング環境が出現する。
そこで我々は,UEDとしてランダムに生成したトレーニングレベルを選択的にサンプリングする,実験的に成功したが理論的には動機のない手法であるプライオリティライズド・レベル・リプレイ(PLR)をキャストした。
完全にランダムなレベルをキュレートすることで、plrも効果的なトレーニングのために新しく複雑なレベルを生成することができる、と主張する。
この知見は、私たちがDual Curriculum Design (DCD)と呼ぶUEDメソッドの自然なクラスを明らかにします。
重要なことに、DCDはPLRと一般的なUEDアルゴリズムであるPAIREDの両方を特別なケースとして含んでおり、同様の理論的保証を継承している。
この接続により、PLRの新たな理論が発展し、ナッシュ平衡において堅牢性を保証するバージョンが提供される。
さらに,本理論は,plrに対する極めて直観的な改善を示唆する。エージェントが未調達のレベル(少ないデータでトレーニングする)に対するポリシーを更新するのを止めることにより,nash平衡への収束性を向上させることができる。
実際、我々の実験では、新しい方法であるplr$^{\perp}$が、plr$^{\perp}$がペアリングの性能を改善し、その理論的な枠組みを継承していることを示すのに加えて、分散しないゼロショット転送タスクのスイートでより良い結果が得られることを確認しました。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Towards Scaling Difference Target Propagation by Learning Backprop
Targets [64.90165892557776]
Different Target Propagationは,Gauss-Newton(GN)最適化と密接な関係を持つ生物学的に証明可能な学習アルゴリズムである。
本稿では、DTPがBPを近似し、階層的なフィードバックウェイトトレーニングを復元できる新しいフィードバックウェイトトレーニング手法を提案する。
CIFAR-10 と ImageNet 上で DTP が達成した最高の性能について報告する。
論文 参考訳(メタデータ) (2022-01-31T18:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。