論文の概要: Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination
- arxiv url: http://arxiv.org/abs/2206.07989v1
- Date: Thu, 16 Jun 2022 08:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-18 09:05:41.576926
- Title: Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination
- Title(参考訳): 信頼する前の状態をダブルチェックする:信頼に反する双方向のオフラインモデルに基づくイマジネーション
- Authors: Jiafei Lyu, Xiu Li, Zongqing Lu
- Abstract要約: トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
- 参考スコア(独自算出の注目度): 31.805991958408438
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The learned policy of model-free offline reinforcement learning (RL) methods
is often constrained to stay within the support of datasets to avoid possible
dangerous out-of-distribution actions or states, making it challenging to
handle out-of-support region. Model-based RL methods offer a richer dataset and
benefit generalization by generating imaginary trajectories with either trained
forward or reverse dynamics model. However, the imagined transitions may be
inaccurate, thus downgrading the performance of the underlying offline RL
method. In this paper, we propose to augment the offline dataset by using
trained bidirectional dynamics models and rollout policies with double check.
We introduce conservatism by trusting samples that the forward model and
backward model agree on. Our method, confidence-aware bidirectional offline
model-based imagination, generates reliable samples and can be combined with
any model-free offline RL method. Experimental results on the D4RL benchmarks
demonstrate that our method significantly boosts the performance of existing
model-free offline RL algorithms and achieves competitive or better scores
against baseline methods.
- Abstract(参考訳): モデルフリーオフライン強化学習(rl)手法の学習方針は、危険な分散外動作や状態を避けるためにデータセットのサポートに留まらざるを得ず、サポート外領域の処理が困難になることが多い。
モデルに基づくRL法はよりリッチなデータセットを提供し、トレーニングされたフォワードまたはリバースダイナミクスモデルで想像軌道を生成することによって一般化の恩恵を受ける。
しかし、想定される遷移は不正確なため、基礎となるオフラインRL法の性能は低下する。
本稿では,双方向ダイナミクスモデルとダブルチェックによるロールアウトポリシを用いて,オフラインデータセットの強化を提案する。
前方モデルと後方モデルが一致したサンプルを信頼することで保守性を導入する。
本手法は,信頼度を考慮した双方向オフラインモデルベースイマジネーションであり,信頼性の高いサンプルを生成し,任意のモデルフリーオフラインrl手法と組み合わせることができる。
d4rlベンチマーク実験の結果,既存のモデルフリーオフラインrlアルゴリズムの性能が大幅に向上し,ベースライン法に対する競争力やスコアが向上した。
関連論文リスト
- ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems [14.74207332728742]
オフライン強化学習(RL)は,実世界のレコメンデーションシステムに有効なツールである。
本稿では,リコメンダシステムのためのオフライン強化学習における報酬と不確実性評価のためのモデルベースReward Shapingを提案する。
論文 参考訳(メタデータ) (2024-07-18T05:07:11Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Dual Generator Offline Reinforcement Learning [90.05278061564198]
オフラインのRLでは、学習したポリシーをデータに近づき続けることが不可欠である。
実際には、GANベースのオフラインRL法は代替手法と同様に実行されていない。
2つのジェネレータを持つことにより、有効なGANベースのオフラインRL法が実現されるだけでなく、サポート制約を近似することも示している。
論文 参考訳(メタデータ) (2022-11-02T20:25:18Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Offline Reinforcement Learning with Reverse Model-based Imagination [25.376888160137973]
オフライン強化学習(オフラインRL)では、学習ポリシーと与えられたデータセットの分散シフトを扱うことが主な課題である。
最近のオフラインRL法は、高信頼領域での学習を促進するために保守主義バイアスを導入しようとしている。
我々は、Reverse Offline Model-based Imagination (ROMI)と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-01T03:13:22Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。