論文の概要: MOReL : Model-Based Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.05951v3
- Date: Tue, 2 Mar 2021 04:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:05:22.535173
- Title: MOReL : Model-Based Offline Reinforcement Learning
- Title(参考訳): MOReL : モデルに基づくオフライン強化学習
- Authors: Rahul Kidambi, Aravind Rajeswaran, Praneeth Netrapalli, Thorsten
Joachims
- Abstract要約: オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
- 参考スコア(独自算出の注目度): 49.30091375141527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning (RL), the goal is to learn a highly
rewarding policy based solely on a dataset of historical interactions with the
environment. The ability to train RL policies offline can greatly expand the
applicability of RL, its data efficiency, and its experimental velocity. Prior
work in offline RL has been confined almost exclusively to model-free RL
approaches. In this work, we present MOReL, an algorithmic framework for
model-based offline RL. This framework consists of two steps: (a) learning a
pessimistic MDP (P-MDP) using the offline dataset; and (b) learning a
near-optimal policy in this P-MDP. The learned P-MDP has the property that for
any policy, the performance in the real environment is approximately
lower-bounded by the performance in the P-MDP. This enables it to serve as a
good surrogate for purposes of policy evaluation and learning, and overcome
common pitfalls of model-based RL like model exploitation. Theoretically, we
show that MOReL is minimax optimal (up to log factors) for offline RL. Through
experiments, we show that MOReL matches or exceeds state-of-the-art results in
widely studied offline RL benchmarks. Moreover, the modular design of MOReL
enables future advances in its components (e.g. generative modeling,
uncertainty estimation, planning etc.) to directly translate into advances for
offline RL.
- Abstract(参考訳): オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
RLポリシーをオフラインでトレーニングする能力は、RLの適用性、データ効率、実験速度を大幅に拡張することができる。
オフライン RL での以前の作業は、ほとんどモデルなし RL アプローチに限られていた。
本研究では,モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
このフレームワークは2つのステップから構成される。
(a)オフラインデータセットを用いた悲観的MDP(P-MDP)学習
(b)このP-MDPで準最適政策を学ぶ。
学習されたP-MDPは、任意のポリシーに対して、実環境における性能は、P-MDPの性能によってほぼ下限となるという特性を持つ。
これにより、ポリシー評価と学習の目的のために優れたサロゲートとして機能し、モデルベースのRLのようなモデルエクスプロイトの共通の落とし穴を克服できます。
理論的には、MOReLはオフラインRLに最適(ログファクタまで)であることを示す。
実験により,moll は最先端の rl ベンチマーク結果と一致するか,あるいは超えていることを示す。
さらに、MOReLのモジュラー設計により、そのコンポーネント(例えば、生成的モデリング、不確実性推定、計画など)の将来の進歩により、オフラインRLの進歩に直接変換できる。
関連論文リスト
- Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。
オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。
本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。
本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。
提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-28T05:18:20Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2021-10-11T07:09:14Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。