Fugu-MT 論文翻訳(概要): Replay-Guided Adversarial Environment Design

論文の概要: Replay-Guided Adversarial Environment Design

arxiv url: http://arxiv.org/abs/2110.02439v1
Date: Wed, 6 Oct 2021 01:01:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-07 14:42:32.136674
Title: Replay-Guided Adversarial Environment Design
Title（参考訳）: リプレイ誘導型逆環境設計
Authors: Minqi Jiang, Michael Dennis, Jack Parker-Holder, Jakob Foerster, Edward Grefenstette, Tim Rockt\"aschel
Abstract要約: 完全にランダムなレベルを計算することで、PLRは効果的なトレーニングのために、新しく複雑なレベルを生成することができる、と我々は主張する。我々は,新しい手法である PLR$perp$ が,アウト・オブ・ディストリビューション,ゼロショット転送タスクのスイートにおいて,より良い結果が得られることを示す。
参考スコア（独自算出の注目度）: 21.305857977725886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (RL) agents may successfully generalize to new settings if trained on an appropriately diverse set of environment and task configurations. Unsupervised Environment Design (UED) is a promising self-supervised RL paradigm, wherein the free parameters of an underspecified environment are automatically adapted during training to the agent's capabilities, leading to the emergence of diverse training environments. Here, we cast Prioritized Level Replay (PLR), an empirically successful but theoretically unmotivated method that selectively samples randomly-generated training levels, as UED. We argue that by curating completely random levels, PLR, too, can generate novel and complex levels for effective training. This insight reveals a natural class of UED methods we call Dual Curriculum Design (DCD). Crucially, DCD includes both PLR and a popular UED algorithm, PAIRED, as special cases and inherits similar theoretical guarantees. This connection allows us to develop novel theory for PLR, providing a version with a robustness guarantee at Nash equilibria. Furthermore, our theory suggests a highly counterintuitive improvement to PLR: by stopping the agent from updating its policy on uncurated levels (training on less data), we can improve the convergence to Nash equilibria. Indeed, our experiments confirm that our new method, PLR$^{\perp}$, obtains better results on a suite of out-of-distribution, zero-shot transfer tasks, in addition to demonstrating that PLR$^{\perp}$ improves the performance of PAIRED, from which it inherited its theoretical framework.
Abstract（参考訳）: 深層強化学習(Deep reinforcement Learning, RL)エージェントは、適切な多様な環境とタスク設定でトレーニングされた場合、新しい設定に適応することができる。教師なし環境設計 (unsupervised environment design, ued) は有望な自己監督型rlパラダイムであり、エージェントの能力に対するトレーニング中に、未特定環境の自由パラメータが自動的に適応され、多様なトレーニング環境が出現する。そこで我々は,UEDとしてランダムに生成したトレーニングレベルを選択的にサンプリングする,実験的に成功したが理論的には動機のない手法であるプライオリティライズド・レベル・リプレイ(PLR)をキャストした。完全にランダムなレベルをキュレートすることで、plrも効果的なトレーニングのために新しく複雑なレベルを生成することができる、と主張する。この知見は、私たちがDual Curriculum Design (DCD)と呼ぶUEDメソッドの自然なクラスを明らかにします。重要なことに、DCDはPLRと一般的なUEDアルゴリズムであるPAIREDの両方を特別なケースとして含んでおり、同様の理論的保証を継承している。この接続により、PLRの新たな理論が発展し、ナッシュ平衡において堅牢性を保証するバージョンが提供される。さらに,本理論は,plrに対する極めて直観的な改善を示唆する。エージェントが未調達のレベル(少ないデータでトレーニングする)に対するポリシーを更新するのを止めることにより,nash平衡への収束性を向上させることができる。実際、我々の実験では、新しい方法であるplr$^{\perp}$が、plr$^{\perp}$がペアリングの性能を改善し、その理論的な枠組みを継承していることを示すのに加えて、分散しないゼロショット転送タスクのスイートでより良い結果が得られることを確認しました。

関連論文リスト

Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。本稿では,新しい伝達学習原理と理論的アルゴリズムを提案する。我々は、計算効率を向上したウィンレートベースの転送ポリシー選択戦略を開発する。
論文参考訳（メタデータ） (2025-02-26T16:03:06Z)
Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [9.153197757307762]
確率拡散モデル(DM)は視覚生成のための強力なフレームワークである。 DMを効率的に調整する方法は重要な課題である。本稿では,DMのための第0次情報調整パラダイムであるRecursive Likelihood Ratio (RLR)を提案する。
論文参考訳（メタデータ） (2025-02-02T03:00:26Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文参考訳（メタデータ） (2024-02-05T19:47:45Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文参考訳（メタデータ） (2023-06-10T09:41:30Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
On Practical Robust Reinforcement Learning: Practical Uncertainty Set and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文参考訳（メタデータ） (2023-05-11T08:52:09Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文参考訳（メタデータ） (2022-07-11T22:45:29Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Towards Scaling Difference Target Propagation by Learning Backprop Targets [64.90165892557776]
Different Target Propagationは,Gauss-Newton(GN)最適化と密接な関係を持つ生物学的に証明可能な学習アルゴリズムである。本稿では、DTPがBPを近似し、階層的なフィードバックウェイトトレーニングを復元できる新しいフィードバックウェイトトレーニング手法を提案する。 CIFAR-10 と ImageNet 上で DTP が達成した最高の性能について報告する。
論文参考訳（メタデータ） (2022-01-31T18:20:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。