論文の概要: Long-Horizon Model-Based Offline Reinforcement Learning Without Conservatism
- arxiv url: http://arxiv.org/abs/2512.04341v1
- Date: Thu, 04 Dec 2025 00:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.932989
- Title: Long-Horizon Model-Based Offline Reinforcement Learning Without Conservatism
- Title(参考訳): 保守性のない長軸モデルに基づくオフライン強化学習
- Authors: Tianwei Ni, Esther Derman, Vineet Jain, Vincent Taboga, Siamak Ravanbakhsh, Pierre-Luc Bacon,
- Abstract要約: 一般的なオフライン強化学習(RL)法は保守主義に依存している。
ベイズ的視点(Bayesian perspective)という補的視点を再考する。
ベイズ主義は保守主義が失敗する低品質なデータセットに優れていることを示す。
我々は、ノイベイが保守主義よりも好まれる時を特徴付け、オフラインおよびモデルベースRLにおける新しい方向性の基礎を築いた。
- 参考スコア(独自算出の注目度): 27.852364502243574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Popular offline reinforcement learning (RL) methods rely on conservatism, either by penalizing out-of-dataset actions or by restricting planning horizons. In this work, we question the universality of this principle and instead revisit a complementary one: a Bayesian perspective. Rather than enforcing conservatism, the Bayesian approach tackles epistemic uncertainty in offline data by modeling a posterior distribution over plausible world models and training a history-dependent agent to maximize expected rewards, enabling test-time generalization. We first illustrate, in a bandit setting, that Bayesianism excels on low-quality datasets where conservatism fails. We then scale the principle to realistic tasks, identifying key design choices, such as layer normalization in the world model and adaptive long-horizon planning, that mitigate compounding error and value overestimation. These yield our practical algorithm, Neubay, grounded in the neutral Bayesian principle. On D4RL and NeoRL benchmarks, Neubay generally matches or surpasses leading conservative algorithms, achieving new state-of-the-art on 7 datasets. Notably, it succeeds with planning horizons of several hundred steps, challenging common belief. Finally, we characterize when Neubay is preferable to conservatism, laying the foundation for a new direction in offline and model-based RL.
- Abstract(参考訳): 一般的なオフライン強化学習(RL)手法は、データ外アクションをペナルティ化するか、計画的地平を制限することによって保守主義に依存している。
この研究において、この原理の普遍性に疑問を呈し、代わりに補的、すなわちベイズ的観点を再考する。
ベイズ的アプローチは保守主義を強制するのではなく、可塑性世界モデル上の後続分布をモデル化し、期待される報酬を最大化するために履歴依存エージェントを訓練することにより、オフラインデータにおける疫学的な不確実性に取り組む。
我々はまず、ベイジアン主義が保守主義が失敗する低品質なデータセットに優れていることを示す。
次に、この原理を現実的なタスクに拡張し、世界モデルにおけるレイヤー正規化や適応型長距離計画といった重要な設計選択を識別し、複合的エラーと価値過大評価を軽減します。
これらのアルゴリズムは、中立ベイズ原理に根ざした実践的アルゴリズムであるノイベイをもたらす。
D4RLとNeoRLのベンチマークでは、Neubayは一般的に、主要な保守的アルゴリズムにマッチするか、超えている。
特に、数百のステップを計画して成功し、共通の信念に挑戦します。
最後に、ニューベイが保守主義よりも好まれる時を特徴付け、オフラインおよびモデルベースRLにおける新しい方向性の基礎を築いた。
関連論文リスト
- Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Compositional Conservatism: A Transductive Approach in Offline Reinforcement Learning [38.48360240082561]
オフライン強化学習のためのCOCOA(Anchor-seeking)を用いたコミュケーショナル・コミュケータリズムを提案する。
我々は4つの最先端のオフラインRLアルゴリズムにCOCOAを適用し、それらをD4RLベンチマークで評価する。
論文 参考訳(メタデータ) (2024-04-06T17:02:18Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Offline Reinforcement Learning with Reverse Model-based Imagination [25.376888160137973]
オフライン強化学習(オフラインRL)では、学習ポリシーと与えられたデータセットの分散シフトを扱うことが主な課題である。
最近のオフラインRL法は、高信頼領域での学習を促進するために保守主義バイアスを導入しようとしている。
我々は、Reverse Offline Model-based Imagination (ROMI)と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-01T03:13:22Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。