論文の概要: PAC-Bayesian Reward-Certified Outcome Weighted Learning
- arxiv url: http://arxiv.org/abs/2604.01946v1
- Date: Thu, 02 Apr 2026 12:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.767669
- Title: PAC-Bayesian Reward-Certified Outcome Weighted Learning
- Title(参考訳): PAC-Bayesian Reward-Certified Outcome Weighted Learning
- Authors: Yuya Ishikawa, Shu Tamano,
- Abstract要約: 結果重み付け学習(OWL)による最適個別化処理規則(ITR)の推定は、しばしば真に潜伏したユーティリティに対してうるさいあるいは楽観的なプロキシである観察された報酬に依存する。
PAC-Bayesian Reward-Certified Outcome Weighted Learning (PROWL)を提案する。
一方的な不確実性証明が与えられた場合、PROWLは真の期待値に基づいて、保守的な報酬と厳密なポリシーに依存した下限を構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating optimal individualized treatment rules (ITRs) via outcome weighted learning (OWL) often relies on observed rewards that are noisy or optimistic proxies for the true latent utility. Ignoring this reward uncertainty leads to the selection of policies with inflated apparent performance, yet existing OWL frameworks lack the finite-sample guarantees required to systematically embed such uncertainty into the learning objective. To address this issue, we propose PAC-Bayesian Reward-Certified Outcome Weighted Learning (PROWL). Given a one-sided uncertainty certificate, PROWL constructs a conservative reward and a strictly policy-dependent lower bound on the true expected value. Theoretically, we prove an exact certified reduction that transforms robust policy learning into a unified, split-free cost-sensitive classification task. This formulation enables the derivation of a nonasymptotic PAC-Bayes lower bound for randomized ITRs, where we establish that the optimal posterior maximizing this bound is exactly characterized by a general Bayes update. To overcome the learning-rate selection problem inherent in generalized Bayesian inference, we introduce a fully automated, bounds-based calibration procedure, coupled with a Fisher-consistent certified hinge surrogate for efficient optimization. Our experiments demonstrate that PROWL achieves improvements in estimating robust, high-value treatment regimes under severe reward uncertainty compared to standard methods for ITR estimation.
- Abstract(参考訳): 結果重み付け学習(OWL)による最適個別化処理規則(ITR)の推定は、しばしば真に潜伏したユーティリティに対してうるさいあるいは楽観的なプロキシである観察された報酬に依存する。
この報酬の不確実性を無視すると、明らかなパフォーマンスが膨らんだポリシーの選択につながるが、既存のOWLフレームワークには、学習目的にそのような不確実性を体系的に組み込むために必要な有限サンプル保証が欠けている。
そこで本研究では,PAC-Bayesian Reward-Certified Outcome Weighted Learning (PROWL)を提案する。
一方的な不確実性証明が与えられた場合、PROWLは真の期待値に基づいて、保守的な報酬と厳密なポリシーに依存した下限を構築する。
理論的には、ロバストな政策学習を統一的でスプリットフリーなコストセンシティブな分類タスクに変換するための、正確な精度の低下を証明します。
この定式化により、ランダム化ITRに対する漸近的PAC-Bayes下界の導出が可能となり、この境界を最大化する最適の後方は、一般ベイズ更新によって正確に特徴づけられる。
一般ベイズ推論に固有の学習速度選択問題を克服するため,完全自動化された境界式キャリブレーション手法を導入し,フィッシャー整合型ヒンジサロゲートと組み合わせて効率的な最適化を行う。
本実験は,ITR推定の標準手法と比較して,高い報酬不確実性の下で頑健で高価値な治療体制を推定する上で,POWLが向上することを示した。
関連論文リスト
- Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。
近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。
報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文 参考訳(メタデータ) (2023-12-11T15:07:58Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Adaptive Conformal Prediction by Reweighting Nonconformity Score [0.0]
我々は、QRF(Quantile Regression Forest)を用いて、不整合スコアの分布を学習し、QRFの重みを利用して、テストポイントに類似した残差を持つサンプルにより重要度を割り当てる。
提案手法は,仮定のない有限標本境界範囲と訓練条件範囲を満足し,適切な仮定の下で条件付き範囲を確保できる。
論文 参考訳(メタデータ) (2023-03-22T16:42:19Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。