論文の概要: Conservative Bayesian Model-Based Value Expansion for Offline Policy
Optimization
- arxiv url: http://arxiv.org/abs/2210.03802v1
- Date: Fri, 7 Oct 2022 20:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:23:39.644368
- Title: Conservative Bayesian Model-Based Value Expansion for Offline Policy
Optimization
- Title(参考訳): オフライン政策最適化のための保守的ベイズモデルに基づく価値拡大
- Authors: Jihwan Jeong, Xiaoyu Wang, Michael Gimelfarb, Hyunwoo Kim, Baher
Abdulhai, Scott Sanner
- Abstract要約: オフライン強化学習(英語版) (RL) は、ある行動ポリシーに従って収集された固定されたデータのバッチからパフォーマンスポリシーを学習する問題に対処する。
モデルベースのアプローチは、環境のモデルを学ぶことによって、ログ化されたデータセットからより多くの学習信号を抽出できるため、特に魅力的である。
- 参考スコア(独自算出の注目度): 41.774837419584735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) addresses the problem of learning a
performant policy from a fixed batch of data collected by following some
behavior policy. Model-based approaches are particularly appealing in the
offline setting since they can extract more learning signals from the logged
dataset by learning a model of the environment. However, the performance of
existing model-based approaches falls short of model-free counterparts, due to
the compounding of estimation errors in the learned model. Driven by this
observation, we argue that it is critical for a model-based method to
understand when to trust the model and when to rely on model-free estimates,
and how to act conservatively w.r.t. both. To this end, we derive an elegant
and simple methodology called conservative Bayesian model-based value expansion
for offline policy optimization (CBOP), that trades off model-free and
model-based estimates during the policy evaluation step according to their
epistemic uncertainties, and facilitates conservatism by taking a lower bound
on the Bayesian posterior value estimate. On the standard D4RL continuous
control tasks, we find that our method significantly outperforms previous
model-based approaches: e.g., MOPO by $116.4$%, MOReL by $23.2$% and COMBO by
$23.7$%. Further, CBOP achieves state-of-the-art performance on $11$ out of
$18$ benchmark datasets while doing on par on the remaining datasets.
- Abstract(参考訳): オフライン強化学習(RL)は、ある行動ポリシーに従って収集された固定されたデータのバッチからパフォーマンスポリシーを学習する問題に対処する。
モデルベースのアプローチは、環境のモデルを学ぶことによって、ログ化されたデータセットからより多くの学習信号を抽出できるため、オフライン環境で特に魅力的である。
しかし、既存のモデルベースアプローチの性能は、学習モデルにおける推定誤差の複合化のため、モデルフリーアプローチには劣る。
この観察に基づいて、モデルベースの手法は、モデルをいつ信頼するか、いつモデル無しの見積もりに頼るべきか、そして、どのように保守的にどのように振る舞うかを理解することが重要であると論じる。
この目的のために,オフライン政策最適化のための保守的ベイズモデルベース価値拡大(cbop)と呼ばれるエレガントでシンプルな手法を導出し,その認識的不確実性に応じて,政策評価段階においてモデルフリーおよびモデルベース推定をトレードオフし,ベイズ後値推定を低くすることで保守主義を促進する。
標準的なD4RL連続制御タスクでは、MOPOが16.4ドル%、MOReLが23.2ドル%、COMBOが23.7ドル%といった従来のモデルベースアプローチよりも大幅に優れていた。
さらにCBOPは、ベンチマークデータセットの18ドルのうち、11ドルで最先端のパフォーマンスを達成し、残りのデータセットと同等に処理する。
関連論文リスト
- Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning [5.012314384895537]
オフラインの強化学習では、環境からの高価なフィードバックがなければ、静的なデータセットを使ってポリシーが学習される。
我々は,観察と行動の連関分布の生成モデルを学習する制約付き潜在行動ポリシー(C-LAP)を提案する。
論文 参考訳(メタデータ) (2024-11-07T09:35:22Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning [14.952800864366512]
保守主義は、正確なオフラインデータと不正確なモデルデータのバランスをとるために、アルゴリズムに組み込まれるべきです。
本稿では、モデル不確実性を推定することなく、milDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。
大規模な実験の結果、DOMAINはD4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-09-16T08:39:28Z) - Model-based Reinforcement Learning with Multi-step Plan Value Estimation [4.158979444110977]
モデルベースRLのマルチステップ動作を置き換えるためのマルチステップ計画を導入する。
新しいモデルベース強化学習アルゴリズムMPPVEは、学習モデルのより良い利用方法を示し、最先端のモデルベースRLアプローチよりも優れたサンプル効率を実現する。
論文 参考訳(メタデータ) (2022-09-12T18:22:11Z) - RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning [11.183124892686239]
本稿では,モデルベースオフラインRLの新しいアプローチであるRobust Adversarial Model-Based Offline RL(RAMBO)を提案する。
保守性を達成するため、敵環境モデルに対して2プレイヤーゼロ和ゲームとして問題を定式化する。
我々は,オフラインRLベンチマークに対する我々のアプローチを評価し,我々のアプローチが技術性能の状態を達成できることを実証した。
論文 参考訳(メタデータ) (2022-04-26T20:42:14Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。