論文の概要: Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds
- arxiv url: http://arxiv.org/abs/2603.12284v1
- Date: Fri, 06 Mar 2026 01:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.6633
- Title: Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds
- Title(参考訳): ベイズ保守政策最適化(BCPO) : クレディブル下界を用いた新しい不確かさ校正オフライン強化学習
- Authors: Debashis Chatterjee,
- Abstract要約: オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Offline reinforcement learning (RL) aims to learn decision policies from a fixed batch of logged transitions, without additional environment interaction. Despite remarkable empirical progress, offline RL remains fragile under distribution shifts: value-based methods can overestimate the value of unseen actions, yielding policies that exploit model errors rather than genuine long-term rewards. We propose \emph{Bayesian Conservative Policy Optimization (BCPO)}, a unified framework that converts epistemic uncertainty into \emph{provably conservative} policy improvement. BCPO maintains a hierarchical Bayesian posterior over environment/value models, constructs a \emph{credible lower bound} (LCB) on action values, and performs policy updates under explicit KL regularization toward the behavior distribution. This yields an uncertainty-calibrated analogue of conservative policy iteration in the offline regime. We provide a finite-MDP theory showing that the pessimistic fixed point lower-bounds the true value function with high probability and that KL-controlled updates improve a computable return lower bound. Empirically, we verify the methodology on a real offline replay dataset for the CartPole benchmark obtained via the \texttt{d3rlpy} ecosystem, and report diagnostics that link uncertainty growth and policy drift to offline instability, motivating principled early stopping and calibration
- Abstract(参考訳): オフライン強化学習(RL)は、追加の環境相互作用なしに、ログ化された遷移の固定バッチから決定ポリシーを学習することを目的としている。
価値ベースのメソッドは、本当の長期的な報酬ではなく、モデルエラーを利用するポリシーを生成することで、目に見えないアクションの価値を過大評価することができます。
本稿では, エピステマ性不確実性を「emph{provably conservative}」政策改善に変換する統一的な枠組みである「emph{Bayesian conservative Policy Optimization (BCPO)」を提案する。
BCPO は環境/価値モデル上の階層的ベイズ的後縁を維持し、行動値上に \emph{credible lower bound} (LCB) を構築し、行動分布に対する明示的なKL正規化の下でポリシー更新を行う。
これにより、オフライン状態における保守的な政策反復の不確実性の校正された類似が得られる。
我々は、悲観的不動点が真の値関数を高い確率で下界させ、KL制御された更新が計算可能な戻り値の下界を改善することを示す有限MDP理論を提供する。
実証的に,CartPoleベンチマークの実際のオフライン再生データセットの方法論を検証するとともに,不確実性の成長と政策のドリフトをオフライン不安定に結びつける診断を報告し,早期停止とキャリブレーションを原則とする。
関連論文リスト
- Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation [20.162114513881118]
オフライン強化学習(RL)は、環境の相互作用を伴わずに行動ポリシーによって生成された固定データセットから最適なポリシーを学ぶことを目的としている。
構築による制約の少ないサポート制約を強制するフローポリシーに基づくオフラインRL手法であるReFORMを提案する。
論文 参考訳(メタデータ) (2026-02-04T21:03:11Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。