論文の概要: Reflect-then-Plan: Offline Model-Based Planning through a Doubly Bayesian Lens
- arxiv url: http://arxiv.org/abs/2506.06261v1
- Date: Fri, 06 Jun 2025 17:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.570227
- Title: Reflect-then-Plan: Offline Model-Based Planning through a Doubly Bayesian Lens
- Title(参考訳): Reflect-then-Plan:2重ベイズレンズによるオフラインモデルベースプランニング
- Authors: Jihwan Jeong, Xiaoyu Wang, Jingmin Wang, Scott Sanner, Pascal Poupart,
- Abstract要約: RefPlanは2つのベイズ的オフラインモデルベース(MB)プランニングアプローチである。
ベイズの後続推定として計画を再キャストすることで、不確実性モデリングとMB計画を統合する。
これにより、保守的なオフラインRLポリシーのパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 39.942564407887346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) is crucial when online exploration is costly or unsafe but often struggles with high epistemic uncertainty due to limited data. Existing methods rely on fixed conservative policies, restricting adaptivity and generalization. To address this, we propose Reflect-then-Plan (RefPlan), a novel doubly Bayesian offline model-based (MB) planning approach. RefPlan unifies uncertainty modeling and MB planning by recasting planning as Bayesian posterior estimation. At deployment, it updates a belief over environment dynamics using real-time observations, incorporating uncertainty into MB planning via marginalization. Empirical results on standard benchmarks show that RefPlan significantly improves the performance of conservative offline RL policies. In particular, RefPlan maintains robust performance under high epistemic uncertainty and limited data, while demonstrating resilience to changing environment dynamics, improving the flexibility, generalizability, and robustness of offline-learned policies.
- Abstract(参考訳): オフライン強化学習(英語版) (RL) は、オンラインでの探索が費用がかかるか安全でない場合において重要であるが、限られたデータのために高い疫学的不確実性に悩まされることが多い。
既存の方法は、適応性と一般化を制限する固定された保守的なポリシーに依存している。
そこで本研究では,2重ベイズ型オフラインモデルベース(MB)計画手法であるRef-then-Plan(RefPlan)を提案する。
RefPlanはベイズ後続推定として再キャスト計画により不確実性モデリングとMB計画を統合する。
デプロイ時に、リアルタイム観測を使用して環境力学に関する信念を更新し、マーカライゼーションを通じてMB計画に不確実性を取り入れる。
標準ベンチマークの実証結果から、RefPlanは保守的なオフラインRLポリシーの性能を大幅に改善することが示された。
特にRefPlanは、環境のダイナミクスの変化に対してレジリエンスを示し、柔軟性、一般化性、オフラインで学習したポリシーの堅牢性を実証しながら、高い認識の不確実性と制限されたデータの下で堅牢なパフォーマンスを維持している。
関連論文リスト
- Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Offline Reinforcement Learning with Reverse Model-based Imagination [25.376888160137973]
オフライン強化学習(オフラインRL)では、学習ポリシーと与えられたデータセットの分散シフトを扱うことが主な課題である。
最近のオフラインRL法は、高信頼領域での学習を促進するために保守主義バイアスを導入しようとしている。
我々は、Reverse Offline Model-based Imagination (ROMI)と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-01T03:13:22Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。