論文の概要: Feasible Adversarial Robust Reinforcement Learning for Underspecified
Environments
- arxiv url: http://arxiv.org/abs/2207.09597v1
- Date: Tue, 19 Jul 2022 23:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:03:43.509410
- Title: Feasible Adversarial Robust Reinforcement Learning for Underspecified
Environments
- Title(参考訳): 不特定環境における強固な強化学習の実現可能性
- Authors: JB Lanier, Stephen McAleer, Pierre Baldi, Roy Fox
- Abstract要約: 実世界の環境では、堅牢な強化学習のための可能な値のセットを選択することは難しい作業である。
本稿では,環境パラメータ値の集合を自動的に決定するFasible Adversarial Robust RL(FARR)を提案する。
このFARRゲームにおいて、PSROアルゴリズムを用いて近似ナッシュ平衡を求めることにより、FARRで訓練されたエージェントは、既存のミニマックス、ドメインランダム化、後悔の目的よりも、実現可能な逆パラメータ選択に頑健であることを示す。
- 参考スコア(独自算出の注目度): 11.866835246140647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust reinforcement learning (RL) considers the problem of learning policies
that perform well in the worst case among a set of possible environment
parameter values. In real-world environments, choosing the set of possible
values for robust RL can be a difficult task. When that set is specified too
narrowly, the agent will be left vulnerable to reasonable parameter values
unaccounted for. When specified too broadly, the agent will be too cautious. In
this paper, we propose Feasible Adversarial Robust RL (FARR), a method for
automatically determining the set of environment parameter values over which to
be robust. FARR implicitly defines the set of feasible parameter values as
those on which an agent could achieve a benchmark reward given enough training
resources. By formulating this problem as a two-player zero-sum game, FARR
jointly learns an adversarial distribution over parameter values with feasible
support and a policy robust over this feasible parameter set. Using the PSRO
algorithm to find an approximate Nash equilibrium in this FARR game, we show
that an agent trained with FARR is more robust to feasible adversarial
parameter selection than with existing minimax, domain-randomization, and
regret objectives in a parameterized gridworld and three MuJoCo control
environments.
- Abstract(参考訳): robust reinforcement learning (rl) は、可能な環境パラメータのセットの中で最悪の場合にうまく機能する学習ポリシーの問題を考察する。
実世界の環境では、ロバストなRLに対して可能な値のセットを選択することが難しい。
そのセットが狭すぎると、エージェントは考慮されていない妥当なパラメータ値に対して脆弱になる。
指定が広すぎると、エージェントは慎重すぎるでしょう。
本稿では,頑健な環境パラメータの集合を自動的に決定するFasible Adversarial Robust RL(FARR)を提案する。
FARRは暗黙的に、実行可能なパラメータ値のセットを、エージェントが十分なトレーニングリソースを与えられたベンチマーク報酬を達成できるものとして定義している。
この問題を2人プレイのゼロサムゲームとして定式化することにより、farrはこの実現可能なパラメータセットに対して頑健なサポートとポリシーを持つパラメータ値上の逆分布を共同で学習する。
このfarrゲームにおけるナッシュ均衡の近似を求めるpsroアルゴリズムを用いて、farrで訓練されたエージェントは、パラメータ化されたグリッドワールドと3つのmujoco制御環境において、既存のminimax、ドメインランダム化、後悔の目的よりも、逆のパラメータ選択に頑健であることを示す。
関連論文リスト
- Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Wasserstein Distributionally Robust Policy Evaluation and Learning for
Contextual Bandits [18.982448033389588]
オフ政治評価と学習は、与えられた政策を評価し、環境と直接対話することなくオフラインデータから最適な政策を学ぶことに関するものである。
学習と実行における異なる環境の影響を考慮するため,分散ロバスト最適化法(DRO)が開発されている。
代わりにワッサーシュタイン距離を用いた新しいDRO手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T20:21:46Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Grounding Aleatoric Uncertainty in Unsupervised Environment Design [32.00797965770773]
部分的に観測可能な設定では、最適ポリシーは、環境のアレタリックなパラメータに対する地道的な分布に依存する可能性がある。
基礎となるトレーニングデータがCICSによってバイアスを受ける場合であっても, 地中実効性関数を最適化するミニマックス後悔UED法を提案する。
論文 参考訳(メタデータ) (2022-07-11T22:45:29Z) - Robust Reinforcement Learning in Continuous Control Tasks with
Uncertainty Set Regularization [17.322284328945194]
強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されている。
我々は $textbfU$ncertainty $textbfS$et $textbfR$egularizer (USR) という新しい正規化器を提案する。
論文 参考訳(メタデータ) (2022-07-05T12:56:08Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Uncertainty Aware System Identification with Universal Policies [45.44896435487879]
Sim2real Transferは、シミュレーションで訓練されたポリシーを、潜在的にノイズの多い現実世界環境に転送することに関心がある。
本研究では,Universal Policy Network (UPN) を用いてシミュレーション学習したタスク固有ポリシーを格納するUncertainty-aware Policy Search (UncAPS)を提案する。
次に、我々は、DRのような方法で関連するUPNポリシーを組み合わせることで、与えられた環境に対して堅牢なポリシーを構築するために、堅牢なベイズ最適化を採用する。
論文 参考訳(メタデータ) (2022-02-11T18:27:23Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。