論文の概要: Grounding Aleatoric Uncertainty in Unsupervised Environment Design
- arxiv url: http://arxiv.org/abs/2207.05219v1
- Date: Mon, 11 Jul 2022 22:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:04:10.651982
- Title: Grounding Aleatoric Uncertainty in Unsupervised Environment Design
- Title(参考訳): 無監督環境設計におけるグラウンドング・アレータリック不確かさ
- Authors: Minqi Jiang, Michael Dennis, Jack Parker-Holder, Andrei Lupu, Heinrich
K\"uttler, Edward Grefenstette, Tim Rockt\"aschel, Jakob Foerster
- Abstract要約: 部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
- 参考スコア(独自算出の注目度): 32.00797965770773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive curricula in reinforcement learning (RL) have proven effective for
producing policies robust to discrepancies between the train and test
environment. Recently, the Unsupervised Environment Design (UED) framework
generalized RL curricula to generating sequences of entire environments,
leading to new methods with robust minimax regret properties. Problematically,
in partially-observable or stochastic settings, optimal policies may depend on
the ground-truth distribution over aleatoric parameters of the environment in
the intended deployment setting, while curriculum learning necessarily shifts
the training distribution. We formalize this phenomenon as curriculum-induced
covariate shift (CICS), and describe how its occurrence in aleatoric parameters
can lead to suboptimal policies. Directly sampling these parameters from the
ground-truth distribution avoids the issue, but thwarts curriculum learning. We
propose SAMPLR, a minimax regret UED method that optimizes the ground-truth
utility function, even when the underlying training data is biased due to CICS.
We prove, and validate on challenging domains, that our approach preserves
optimality under the ground-truth distribution, while promoting robustness
across the full range of environment settings.
- Abstract(参考訳): RL(Adaptive curricula in reinforcement learning)は、列車と試験環境の相違に頑健な政策を作成するのに有効であることが証明されている。
最近、unsupervised environment design (ued)フレームワークはrlのカリキュラムを一般化して環境全体のシーケンスを生成し、ロバストなminimax regretプロパティを持つ新しいメソッドを生み出した。
問題なのは、部分的に観察可能な設定や確率的な設定では、最適なポリシーは、意図した配置設定における環境のアレエータパラメータの基底分布に依存するが、カリキュラム学習は必ずしもトレーニング分布をシフトさせる。
我々は,この現象をカリキュラム誘起共変量シフト (CICS) として定式化し,そのパラメーターの出現が最適下方策にどのように寄与するかを説明する。
これらのパラメータを地上分布から直接サンプリングすることは問題を避けるが、カリキュラム学習を妨げる。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 基本トラストユーティリティ関数を最適化するミニマックス後悔UED手法であるSAMPLRを提案する。
提案手法は,全環境設定におけるロバスト性を高めつつ,地道分布下で最適性を保っていることを証明し,検証する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits [18.982448033389588]
オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことに関するものである。
学習と実行における異なる環境の影響を考慮するため,分散ロバスト最適化法(DRO)が開発されている。
代わりにワッサーシュタイン距離を用いた新しいDRO手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:21:46Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [13.013268095049236]
強化学習(Reinforcement Learning, RL)は、人工知能(Artificial General Intelligence, AGI)に繋がる重要な要素と考えられている。
しかしながら、RLはテスト環境と同じトレーニング環境を持つことでしばしば批判され、実世界でのRLの適用を妨げている。
この問題を解決するために、未知のテスト環境を含む可能性のある環境の組における最悪の性能を改善するために、分散ロバストRL(DRRL)を提案する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness
to Model Misspecification [22.241676350331968]
本研究は,不確実性パラメータを含むシミュレーション環境とその可能な値の集合を含むシナリオに焦点を当てる。
本研究の目的は,不確実性パラメータセット上での最悪の性能を最適化し,対応する実環境における性能を保証することである。
マルチジョイント・ダイナミックスと接触(MuJoCo)環境の実験により,提案手法は複数のベースライン・アプローチに比較して最悪の性能を示した。
論文 参考訳(メタデータ) (2022-11-07T10:18:31Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Distributionally Robust Policy Learning via Adversarial Environment
Generation [3.42658286826597]
環境の逆生成を通したDRAGEN-分散ロバストな政策学習を提案する。
遅延変数がコスト予測的かつ現実的な環境変動を捉えた環境に対する生成モデルについて学習する。
我々は,現実的な2D/3Dオブジェクトを把握するためのシミュレーションにおいて,OoD(Out-of-Distribution)の強力な一般化を実証する。
論文 参考訳(メタデータ) (2021-07-13T19:26:34Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。