論文の概要: Overcoming Model Bias for Robust Offline Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.05533v4
- Date: Thu, 22 Jul 2021 13:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:45:45.196149
- Title: Overcoming Model Bias for Robust Offline Deep Reinforcement Learning
- Title(参考訳): ロバストオフライン深部強化学習のためのモデルバイアスの克服
- Authors: Phillip Swazinna, Steffen Udluft, Thomas Runkler
- Abstract要約: MOOSEは、ポリシーをデータのサポート内に保持することで、低モデルバイアスを保証するアルゴリズムである。
我々はMOOSEと産業ベンチマークのBRAC, BEAR, BCQ, および MuJoCo の連続制御タスクを比較した。
- 参考スコア(独自算出の注目度): 3.1325640909772403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art reinforcement learning algorithms mostly rely on being
allowed to directly interact with their environment to collect millions of
observations. This makes it hard to transfer their success to industrial
control problems, where simulations are often very costly or do not exist, and
exploring in the real environment can potentially lead to catastrophic events.
Recently developed, model-free, offline RL algorithms, can learn from a single
dataset (containing limited exploration) by mitigating extrapolation error in
value functions. However, the robustness of the training process is still
comparatively low, a problem known from methods using value functions. To
improve robustness and stability of the learning process, we use dynamics
models to assess policy performance instead of value functions, resulting in
MOOSE (MOdel-based Offline policy Search with Ensembles), an algorithm which
ensures low model bias by keeping the policy within the support of the data. We
compare MOOSE with state-of-the-art model-free, offline RL algorithms { BRAC,}
BEAR and BCQ on the Industrial Benchmark and MuJoCo continuous control tasks in
terms of robust performance, and find that MOOSE outperforms its model-free
counterparts in almost all considered cases, often even by far.
- Abstract(参考訳): 最先端の強化学習アルゴリズムは、ほとんどが環境と直接対話して何百万もの観察を収集することに依存している。
これにより、シミュレーションは非常にコストがかかるか、存在していないことの多い産業制御問題に成功を移すことが難しくなり、実際の環境での探索は破滅的な出来事を引き起こす可能性がある。
近年開発された、モデルなしオフラインRLアルゴリズムは、値関数における外挿誤差を緩和することにより、単一のデータセット(限られた探索を含む)から学習することができる。
しかし,学習過程のロバスト性は比較的低く,値関数を用いた手法では問題となっている。
学習プロセスのロバスト性と安定性を改善するために、我々は、価値関数の代わりにポリシーのパフォーマンスを評価するためにダイナミクスモデルを使用し、その結果moose(model-based offline policy search with ensembles)というアルゴリズムが生成される。
mooseと最先端のモデルフリー、オフラインのrlアルゴリズムであるbrac,} bearとbcqを、産業ベンチマークとmujocoの連続制御タスクで比較した結果、mooseがほとんどすべてのケースでモデルフリーのものよりも優れていることが判明した。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator [13.140242573639629]
オフライン強化学習(RL)は、分散シフトの大きな課題に直面している。
モデルフリーオフラインRLは、アウト・オブ・ディストリビューション(OOD)データに対するQ値のペナルティ化や、この問題を解決するために行動ポリシーに閉じたポリシーの制約を行う。
本稿では,保守的ベルマン演算子(MICRO)を用いた新しいモデルベースオフラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T02:17:45Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。