論文の概要: DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.08925v1
- Date: Sat, 16 Sep 2023 08:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:32:14.333465
- Title: DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning
- Title(参考訳): DOMAIN:軽度保存モデルベースオフリン強化学習
- Authors: Xiao-Yin Liu, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng,
Hao Li, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Zeng-Guang Hou
- Abstract要約: 保守主義は、正確なオフラインデータと不正確なモデルデータのバランスをとるために、アルゴリズムに組み込まれるべきです。
本稿では、モデル不確実性を推定することなく、milDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。
大規模な実験の結果、DOMAINはD4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 15.624462758984153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (RL), which learns environment model from
offline dataset and generates more out-of-distribution model data, has become
an effective approach to the problem of distribution shift in offline RL. Due
to the gap between the learned and actual environment, conservatism should be
incorporated into the algorithm to balance accurate offline data and imprecise
model data. The conservatism of current algorithms mostly relies on model
uncertainty estimation. However, uncertainty estimation is unreliable and leads
to poor performance in certain scenarios, and the previous methods ignore
differences between the model data, which brings great conservatism. Therefore,
this paper proposes a milDly cOnservative Model-bAsed offlINe RL algorithm
(DOMAIN) without estimating model uncertainty to address the above issues.
DOMAIN introduces adaptive sampling distribution of model samples, which can
adaptively adjust the model data penalty. In this paper, we theoretically
demonstrate that the Q value learned by the DOMAIN outside the region is a
lower bound of the true Q value, the DOMAIN is less conservative than previous
model-based offline RL algorithms and has the guarantee of security policy
improvement. The results of extensive experiments show that DOMAIN outperforms
prior RL algorithms on the D4RL dataset benchmark, and achieves better
performance than other RL algorithms on tasks that require generalization.
- Abstract(参考訳): オフラインデータセットから環境モデルを学習し,より多くのアウト・オブ・ディストリビューションモデルデータを生成するモデルベース強化学習(RL)は,オフラインRLにおける分布シフト問題に対する効果的なアプローチとなっている。
学習環境と実際の環境のギャップのため、正確なオフラインデータと不正確なモデルデータのバランスをとるために、保守主義をアルゴリズムに組み込む必要がある。
現在のアルゴリズムの保守性は主にモデル不確実性推定に依存する。
しかし、不確実性の推定は信頼性が低く、あるシナリオでは性能が低下し、以前の手法ではモデルデータ間の差異を無視し、大きな保守性をもたらす。
そこで本稿では,モデルの不確実性を推定することなく,MilDly cOnservative Model-bAsed offlINe RLアルゴリズム(DOMAIN)を提案する。
ドメインは、モデルデータペナルティを適応的に調整できるモデルサンプルの適応サンプリング分布を導入する。
本稿では,領域外においてDOMAINが学習したQ値が真のQ値の下限であること,DOMAINは従来のモデルベースオフラインRLアルゴリズムよりも保守的ではなく,セキュリティポリシーの改善が保証されていることを理論的に示す。
大規模な実験の結果、DOMAINは、D4RLデータセットのベンチマークにおいて、以前のRLアルゴリズムよりも優れており、一般化を必要とするタスクにおいて、他のRLアルゴリズムよりも優れたパフォーマンスを実現している。
関連論文リスト
- SUMO: Search-Based Uncertainty Estimation for Model-Based Offline Reinforcement Learning [27.701895830821197]
代案としてtextbfModel ベースの textbfOffline RL (SUMO) に対する textbfSearch ベースの textbfUncertainty 推定法を提案する。
私たちのコードは利用可能で、さらなる研究と開発のためにオープンソースになります。
論文 参考訳(メタデータ) (2024-08-23T10:36:08Z) - MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator [13.140242573639629]
オフライン強化学習(RL)は、分散シフトの大きな課題に直面している。
モデルフリーオフラインRLは、アウト・オブ・ディストリビューション(OOD)データに対するQ値のペナルティ化や、この問題を解決するために行動ポリシーに閉じたポリシーの制約を行う。
本稿では,保守的ベルマン演算子(MICRO)を用いた新しいモデルベースオフラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-07T02:17:45Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。
主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。
我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-05T11:49:33Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。