論文の概要: Offline Reinforcement Learning with Reverse Model-based Imagination
- arxiv url: http://arxiv.org/abs/2110.00188v1
- Date: Fri, 1 Oct 2021 03:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:45:52.691554
- Title: Offline Reinforcement Learning with Reverse Model-based Imagination
- Title(参考訳): 逆モデルに基づくイマジネーションを用いたオフライン強化学習
- Authors: Jianhao Wang, Wenzhe Li, Haozhe Jiang, Guangxiang Zhu, Siyuan Li,
Chongjie Zhang
- Abstract要約: オフライン強化学習(オフラインRL)では、学習ポリシーと与えられたデータセットの分散シフトを扱うことが主な課題である。
最近のオフラインRL法は、高信頼領域での学習を促進するために保守主義バイアスを導入しようとしている。
我々は、Reverse Offline Model-based Imagination (ROMI)と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.376888160137973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning (offline RL), one of the main challenges is
to deal with the distributional shift between the learning policy and the given
dataset. To address this problem, recent offline RL methods attempt to
introduce conservatism bias to encourage learning on high-confidence areas.
Model-free approaches directly encode such bias into policy or value function
learning using conservative regularizations or special network structures, but
their constrained policy search limits the generalization beyond the offline
dataset. Model-based approaches learn forward dynamics models with conservatism
quantifications and then generate imaginary trajectories to extend the offline
datasets. However, due to limited samples in offline dataset, conservatism
quantifications often suffer from overgeneralization in out-of-support regions.
The unreliable conservative measures will mislead forward model-based
imaginations to undesired areas, leading to overaggressive behaviors. To
encourage more conservatism, we propose a novel model-based offline RL
framework, called Reverse Offline Model-based Imagination (ROMI). We learn a
reverse dynamics model in conjunction with a novel reverse policy, which can
generate rollouts leading to the target goal states within the offline dataset.
These reverse imaginations provide informed data augmentation for the
model-free policy learning and enable conservative generalization beyond the
offline dataset. ROMI can effectively combine with off-the-shelf model-free
algorithms to enable model-based generalization with proper conservatism.
Empirical results show that our method can generate more conservative behaviors
and achieve state-of-the-art performance on offline RL benchmark tasks.
- Abstract(参考訳): オフライン強化学習(オフラインrl)において、主な課題の1つは、学習ポリシーと与えられたデータセットの分散シフトに対処することだ。
この問題に対処するために、最近のオフラインRL手法は、高信頼領域での学習を促進するために保守主義バイアスを導入しようと試みている。
モデルフリーなアプローチは、保守的な正規化や特別なネットワーク構造を使って、これらのバイアスをポリシーや価値関数の学習に直接エンコードするが、その制約付きポリシー検索はオフラインデータセットを超えて一般化を制限している。
モデルに基づくアプローチは、保守主義の定量化を伴うフォワードダイナミクスモデルを学び、続いて仮想軌道を生成してオフラインデータセットを拡張する。
しかしながら、オフラインデータセットのサンプルが限られているため、保守的定量化はサポート外領域での過大化に苦しむことが多い。
信頼できない保守的措置は、モデルに基づく想像力を望ましくない地域に向け、過度に攻撃的な行動を引き起こす。
より保守性を高めるために,Reverse Offline Model-based Imagination (ROMI) と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
我々は、新しいリバースポリシーとともにリバースダイナミクスモデルを学び、オフラインデータセット内でターゲット目標状態につながるロールアウトを生成することができる。
これらの逆イマジネーションは、モデルフリーなポリシー学習のためのインフォームドデータ拡張を提供し、オフラインデータセットを超えて保守的な一般化を可能にする。
ROMIは市販のモデルフリーアルゴリズムと効果的に組み合わせて、モデルベース一般化と適切な保守性を実現する。
実験の結果,本手法はより保守的な動作を生成でき,オフラインRLベンチマークタスクの最先端性能を実現することができることがわかった。
関連論文リスト
- SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。