論文の概要: Offline Policy Optimization with Posterior Sampling
- arxiv url: http://arxiv.org/abs/2605.07393v1
- Date: Fri, 08 May 2026 07:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.900101
- Title: Offline Policy Optimization with Posterior Sampling
- Title(参考訳): 後方サンプリングによるオフライン政策最適化
- Authors: Hongqiang Lin, Dongxu Zhang, Yiding Sun, Mingzhe Li, Ning Yang, Haijun Zhang,
- Abstract要約: モデルベースオフライン強化学習(RL)における基本的な課題は、一般化と堅牢性の間のトレードオフにある。
ベイズ推論プロセスとして動的モデリングを定式化するPSPO(Posterior Sampling-based Policy Optimization)を提案する。
PSPOを検証した標準ベンチマークの実験は、最先端のベースラインよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 18.74544103863437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental challenge in model-based offline reinforcement learning (RL) lies in the trade-off between generalization and robustness against exploitation errors in out-of-distribution (OOD) regions. While OOD samples may capture valid underlying physical dynamics, they also introduce the risk of model exploitation. Existing methods typically address this risk through excessive pessimistic regularization, which ensures robustness but often sacrifices generalization. To overcome this limitation, we propose Posterior Sampling-based Policy Optimization (PSPO), which formulates dynamics modeling as a Bayesian inference process to derive a posterior that explicitly quantifies model fidelity. Through the integration of posterior sampling and constrained policy optimization, our method leverages dynamics-consistent OOD transitions for generalization while ensuring robustness against model exploitation. Theoretically, we formulate Q-value estimation under posterior sampling as a stochastic approximation problem and establish its convergence. We decompose policy optimization into a sequence of constrained subproblems, demonstrating that solving these subproblems guarantees monotonic improvement until convergence. Experiments on standard benchmarks validate that PSPO achieves superior performance compared to state-of-the-art baselines.
- Abstract(参考訳): モデルベースオフライン強化学習(RL)における基本的な課題は、アウト・オブ・ディストリビューション(OOD)領域におけるエクスプロイトエラーに対する一般化と堅牢性の間のトレードオフにある。
OODサンプルは有効な物理力学をキャプチャするが、モデルエクスプロイトのリスクも導入する。
既存の手法は通常、過度の悲観的正則化を通じてこのリスクに対処し、堅牢性を保証するが、しばしば一般化を犠牲にする。
この制限を克服するために、ベイズ推論プロセスとして動的モデリングを定式化し、モデル忠実度を明示する後部を導出するポストリアサンプリングに基づくポリシー最適化(PSPO)を提案する。
後続サンプリングと制約付きポリシ最適化の統合により,モデル利用に対するロバスト性を確保しつつ,動的に一貫性のあるOOD遷移を一般化に活用する。
理論的には, 後方サンプリングによるQ値推定を確率近似問題として定式化し, 収束性を確立する。
政策最適化を制約付きサブプロブレムの列に分解し、これらのサブプロブレムを解くことで収束まで単調な改善が保証されることを示す。
標準ベンチマークの実験は、PSPOが最先端のベースラインよりも優れたパフォーマンスを達成することを実証している。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Contrastive Weak-to-strong Generalization [50.5986177336082]
本稿では,弱強一般化を推し進めるため,Contrastive Weak-to-Strong Generalization (ConG)を提案する。
このフレームワークは、より高品質なサンプルを生成するために、事前調整後の弱いモデル間の対照的な復号を用いる。
論文 参考訳(メタデータ) (2025-10-09T07:37:23Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。