論文の概要: Regularized Offline Policy Optimization with Posterior Hybrid Bayesian Belief
- arxiv url: http://arxiv.org/abs/2606.00680v2
- Date: Tue, 02 Jun 2026 13:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.365295
- Title: Regularized Offline Policy Optimization with Posterior Hybrid Bayesian Belief
- Title(参考訳): 後ハイブリッドベイズ的信念を用いた正規化オフライン政策最適化
- Authors: Hongqiang Lin, Pengfei Wang, Nenggan Zheng,
- Abstract要約: 本稿では,力学モデルのサブセット上での凸結合として期待を再構成するポストリアハイブリッドベイズ的信念を提案する。
コンバージェンスまで単調改善のための計量に依存しない保証を提供する反復正規化政策最適化アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 14.44966497240221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims to optimize policies from pre-collected datasets. A bottleneck of this paradigm is managing epistemic uncertainty, which arises from limited data coverage (sample-level) and the ambiguity in identifying transition dynamics from finite data (model-level). To provide a unified quantification of these uncertainties, Bayesian RL has been proposed by treating the dynamics model as a random variable and maintaining a corresponding belief. Despite its theoretical appeal, policy optimization in Bayesian RL remains computationally challenging as it requires solving composite objectives with expectations. Prior methods either employ search-based techniques with poor computational scalability or impose restrictive posterior assumptions that sacrifice the adaptability of Bayesian RL. To address these limitations, we propose Posterior Hybrid Bayesian Belief (PhyB), which reformulates the expectation as a convex combination over a subset of dynamics models. Theoretical analysis demonstrates that the objective discrepancy induced by this approximation remains bounded. Based on PhyB, we develop an iterative regularized policy optimization algorithm that provides metric-agnostic guarantees for monotonic improvement until convergence. Empirical results demonstrate that PhyB achieves state-of-the-art performance on various benchmarks.
- Abstract(参考訳): オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを最適化することを目的としている。
このパラダイムのボトルネックは、限られたデータカバレッジ(サンプルレベル)と有限データ(モデルレベル)から遷移ダイナミクスを識別するあいまいさから生じるてんかんの不確実性を管理することである。
これらの不確かさを統一的に定量化するために、ベイズRLは、力学モデルをランダム変数として扱い、対応する信念を維持することによって提案されている。
理論上の魅力にもかかわらず、ベイジアン RL のポリシー最適化は、期待された複合目的を解く必要があるため、計算的に難しいままである。
従来の手法では、計算スケーラビリティの低い検索ベースの手法を使うか、ベイズRLの適応性を犠牲にする制限的な後続仮定を課すかのいずれかであった。
これらの制約に対処するために、動的モデルのサブセット上で凸結合として期待を再構成するPosterior Hybrid Bayesian Belief (PhyB)を提案する。
理論的解析は、この近似によって誘導される客観的な相違が依然として有界であることを証明している。
PhyBをベースとして,収束まで単調改善のための計量に依存しない保証を提供する反復正規化政策最適化アルゴリズムを開発した。
実験結果からPhyBは様々なベンチマークで最先端の性能を発揮することが示された。
関連論文リスト
- Joint Model and Data Sparsification via the Marginal Likelihood [53.29070892356214]
本稿では,個々の特徴とサンプルの相違点を同時学習し,同時にモデルとデータスペーシングを実現することを提案する。
このモデルとデータの対称的なプルーニングは、共役を保存する自然な拡張を提供する。
多様な回帰タスクにわたる経験的結果は、共同ARDアプローチがスパースモデルとロバスト予測モデルの両方を一貫して生成することを確認した。
論文 参考訳(メタデータ) (2026-05-28T13:26:53Z) - Offline Policy Optimization with Posterior Sampling [18.74544103863437]
モデルベースオフライン強化学習(RL)における基本的な課題は、一般化と堅牢性の間のトレードオフにある。
ベイズ推論プロセスとして動的モデリングを定式化するPSPO(Posterior Sampling-based Policy Optimization)を提案する。
PSPOを検証した標準ベンチマークの実験は、最先端のベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-05-08T07:48:21Z) - Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-12-11T12:51:21Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。