論文の概要: Generative OOD-regularized Model-based Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.24405v1
- Date: Sat, 23 May 2026 05:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.037515
- Title: Generative OOD-regularized Model-based Policy Optimization
- Title(参考訳): OOD-regularized Model-based Policy Optimization
- Authors: Aysin Tumay, Jiahe Huang, Elise Jortberg, Rose Yu,
- Abstract要約: オフライン強化学習(RL)を用いた逐次意思決定に関する研究
従来のオフラインRLポリシーは、トレーニングが疎いオフライン表現のみに依存する場合、アウト・オブ・ディストリビューション(OOD)アクションをもたらす可能性がある。
生成モデルはスパース状態-作用空間における密度を明示的にモデル化することができる。
- 参考スコア(独自算出の注目度): 22.764955397789297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study sequential decision-making with offline reinforcement learning (RL). Traditional offline RL policies may result in out-of-distribution (OOD) actions when training relies only on sparse offline representations. To ensure safe offline policies in a sparse state-action space, we explore how density estimation models can be integrated into model-based RL methods to avoid the OOD regions. Generative models are capable of explicitly modeling the density in sparse state-action spaces. Building on this, we introduce Generative OOD-regularized Model-based Policy Optimization (GORMPO), a density-regularized offline RL algorithm that uses generative density modeling to restrict policy updates to high-density areas of the dataset. Furthermore, we examine whether better OOD detection corresponds to better model-based offline policies. We compare (1) the OOD detection capabilities of various density estimators and (2) their performance within the GORMPO framework on a real-world medical dataset and sparse offline RL datasets. We theoretically guarantee GORMPO's performance under mild assumptions. Empirically, GORMPO outperforms state-of-the-art baselines by 17% on a real-world medical dataset and enhances the base model on the offline RL datasets. Our empirical findings show that better OOD detection generally results in improved policies in environments with stable dynamics, while conservative penalties with poor density estimation are favored when dynamics are uncertain.
- Abstract(参考訳): オフライン強化学習(RL)を用いた逐次意思決定について検討した。
従来のオフラインRLポリシーは、トレーニングが疎いオフライン表現のみに依存する場合、アウト・オブ・ディストリビューション(OOD)アクションをもたらす可能性がある。
疎い状態-作用空間における安全なオフラインポリシを確保するため,OOD領域を避けるために密度推定モデルをモデルベースRL手法に統合する方法を検討する。
生成モデルはスパース状態-作用空間における密度を明示的にモデル化することができる。
そこで本研究では,GORMPO(Generative OOD-regularized Model-based Policy Optimization)を提案する。
さらに,OOD検出の精度がモデルベースオフラインポリシーに適合するかどうかを検討した。
本研究は,(1)密度推定器のOOD検出能力と,(2)実世界の医療データセット上でのGORMPOフレームワークの性能を比較した。
我々はGORMPOの性能を軽度な仮定で理論的に保証する。
実証的には、GORMPOは実世界の医療データセットで最先端のベースラインを17%上回り、オフラインのRLデータセットでベースモデルを強化する。
実験の結果,OOD検出の精度は概して安定な動的環境において改善され,密度推定が不十分な保守的な罰則は,力学が不確実な場合に好まれることがわかった。
関連論文リスト
- VIPO: Value Function Inconsistency Penalized Offline Reinforcement Learning [15.796963385626846]
VIPOは、価値推定から自己教師付きフィードバックを取り入れて、モデルトレーニングを強化する、新しいモデルベースのオフラインRLアルゴリズムである。
VIPOは、既存の手法より効率的かつ一貫して優れたモデルを学ぶことができることを示す。
論文 参考訳(メタデータ) (2025-04-16T10:23:44Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Model-Based Offline Reinforcement Learning with Reliability-Guaranteed Sequence Modeling [0.0]
モデルベースオフライン強化学習(MORL)は、既存のデータセットから派生した動的モデルを利用してポリシーを学習することを目的としている。
信頼性の低いトラジェクトリを除去できる新しいMORLアルゴリズム textbfReliability-guaranteed textbfTransformer (RT) を提案する。
論文 参考訳(メタデータ) (2025-02-10T14:08:55Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。