論文の概要: Robust Reinforcement Learning using Offline Data
- arxiv url: http://arxiv.org/abs/2208.05129v1
- Date: Wed, 10 Aug 2022 03:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:26:37.368038
- Title: Robust Reinforcement Learning using Offline Data
- Title(参考訳): オフラインデータを用いたロバスト強化学習
- Authors: Kishan Panaganti, Zaiyan Xu, Dileep Kalathil, Mohammad Ghavamzadeh
- Abstract要約: 我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
- 参考スコア(独自算出の注目度): 23.260211453437055
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The goal of robust reinforcement learning (RL) is to learn a policy that is
robust against the uncertainty in model parameters. Parameter uncertainty
commonly occurs in many real-world RL applications due to simulator modeling
errors, changes in the real-world system dynamics over time, and adversarial
disturbances. Robust RL is typically formulated as a max-min problem, where the
objective is to learn the policy that maximizes the value against the worst
possible models that lie in an uncertainty set. In this work, we propose a
robust RL algorithm called Robust Fitted Q-Iteration (RFQI), which uses only an
offline dataset to learn the optimal robust policy. Robust RL with offline data
is significantly more challenging than its non-robust counterpart because of
the minimization over all models present in the robust Bellman operator. This
poses challenges in offline data collection, optimization over the models, and
unbiased estimation. In this work, we propose a systematic approach to overcome
these challenges, resulting in our RFQI algorithm. We prove that RFQI learns a
near-optimal robust policy under standard assumptions and demonstrate its
superior performance on standard benchmark problems.
- Abstract(参考訳): 頑健な強化学習(RL)の目的は、モデルパラメータの不確実性に対して堅牢な政策を学ぶことである。
パラメータの不確実性は、シミュレーションモデリングエラー、時間経過に伴う実世界のシステムダイナミクスの変化、および敵対的障害により、多くの実世界のRLアプリケーションでよく起こる。
ロバスト RL は一般に極小問題として定式化され、その目的は不確実集合にある最悪のモデルに対する価値を最大化するポリシーを学ぶことである。
本研究では,ロバストフィットQ-Iteration (RFQI) と呼ばれるロバストなRLアルゴリズムを提案する。
オフラインデータを持つロバストRLは、ロバストなベルマン作用素に存在する全てのモデルの最小化のため、非ロバストなRLよりもはるかに困難である。
これはオフラインデータ収集、モデルに対する最適化、偏りのない推定において課題となる。
本研究では,これらの課題を克服するための体系的アプローチを提案し,rfqiアルゴリズムを提案する。
RFQIは,標準仮定の下でほぼ最適に近いロバストポリシを学習し,標準ベンチマーク問題に対して優れた性能を示す。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator [13.140242573639629]
オフライン強化学習(RL)は、分散シフトの大きな課題に直面している。
モデルフリーオフラインRLは、アウト・オブ・ディストリビューション(OOD)データに対するQ値のペナルティ化や、この問題を解決するために行動ポリシーに閉じたポリシーの制約を行う。
本稿では,保守的ベルマン演算子(MICRO)を用いた新しいモデルベースオフラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T02:17:45Z) - RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning [11.183124892686239]
本稿では,モデルベースオフラインRLの新しいアプローチであるRobust Adversarial Model-Based Offline RL(RAMBO)を提案する。
保守性を達成するため、敵環境モデルに対して2プレイヤーゼロ和ゲームとして問題を定式化する。
我々は,オフラインRLベンチマークに対する我々のアプローチを評価し,我々のアプローチが技術性能の状態を達成できることを実証した。
論文 参考訳(メタデータ) (2022-04-26T20:42:14Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Overcoming Model Bias for Robust Offline Deep Reinforcement Learning [3.1325640909772403]
MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
論文 参考訳(メタデータ) (2020-08-12T19:08:55Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。