論文の概要: Unified PAC-Bayesian Study of Pessimism for Offline Policy Learning with Regularized Importance Sampling
- arxiv url: http://arxiv.org/abs/2406.03434v1
- Date: Wed, 5 Jun 2024 16:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:22:00.328444
- Title: Unified PAC-Bayesian Study of Pessimism for Offline Policy Learning with Regularized Importance Sampling
- Title(参考訳): 正規化重要度サンプリングによるオフライン政策学習のためのペシミズムの統一PAC-Bayesianによる研究
- Authors: Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba,
- Abstract要約: 我々は、共通重み正規化に普遍的に適用される、トラクタブルなPAC-ベイジアン一般化を導入する。
本結果は,標準IW正則化手法の有効性を実証し,共通理解に挑戦するものである。
- 参考スコア(独自算出の注目度): 13.001601860404426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy learning (OPL) often involves minimizing a risk estimator based on importance weighting to correct bias from the logging policy used to collect data. However, this method can produce an estimator with a high variance. A common solution is to regularize the importance weights and learn the policy by minimizing an estimator with penalties derived from generalization bounds specific to the estimator. This approach, known as pessimism, has gained recent attention but lacks a unified framework for analysis. To address this gap, we introduce a comprehensive PAC-Bayesian framework to examine pessimism with regularized importance weighting. We derive a tractable PAC-Bayesian generalization bound that universally applies to common importance weight regularizations, enabling their comparison within a single framework. Our empirical results challenge common understanding, demonstrating the effectiveness of standard IW regularization techniques.
- Abstract(参考訳): オフ・ポリシー・ラーニング(OPL)はしばしば、データ収集に使用されるロギングポリシーからバイアスを正すために重み付けに基づいてリスク推定器を最小化する。
しかし、この方法は、高いばらつきを有する推定器を生成することができる。
一般的な解決策は、重み付けの正則化とポリシーの学習である。
悲観主義として知られるこのアプローチは近年注目を集めているが、分析のための統一的な枠組みが欠如している。
このギャップに対処するために、我々は、周期的に重み付けされた悲観論を調査するための総合的なPAC-ベイジアンフレームワークを導入する。
我々は、共通の重み正規化に普遍的に適用される、引き込み可能なPAC-ベイジアン一般化を導出し、単一のフレームワーク内でそれらの比較を可能にする。
実験結果は,標準IW正則化手法の有効性を実証し,共通理解に挑戦する。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。
我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。
我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文 参考訳(メタデータ) (2023-08-30T08:46:46Z) - Exponential Smoothing for Off-Policy Learning [16.284314586358928]
逆相対性スコアリング(IPS)のための両側PAC-Bayes一般化を導出する。
バウンダリは、トラクタブルで、スケーラブルで、解釈可能で、学習証明書を提供する。
論文 参考訳(メタデータ) (2023-05-25T09:18:45Z) - A Unified Framework of Policy Learning for Contextual Bandit with
Confounding Bias and Missing Observations [108.89353070722497]
本研究では,観測データを用いた最適ポリシの獲得を目的とした,オフラインのコンテキスト的帯域幅問題について検討する。
本稿では、積分方程式系の解として報酬関数を形成するCausal-Adjusted Pessimistic(CAP)ポリシー学習という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T15:17:31Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Learning Stochastic Majority Votes by Minimizing a PAC-Bayes
Generalization Bound [15.557653926558638]
分類器の有限アンサンブルに対する多数票の対について検討し、その一般化特性について検討する。
ディリクレ分布でインスタンス化し、予測されるリスクに対して閉じた形式と微分可能な表現を可能にする。
結果の多数決学習アルゴリズムは、最先端の精度と(非空きな)厳密な境界から恩恵を得る。
論文 参考訳(メタデータ) (2021-06-23T16:57:23Z) - A PAC-Bayes Analysis of Adversarial Robustness [0.0]
対向ロバスト性に対する最初の一般PAC-ベイズ境界の一般化を提案する。
PAC-Bayesianフレームワークを利用して、多数決の摂動に対する平均的なリスクを制限します。
論文 参考訳(メタデータ) (2021-02-19T10:23:48Z) - PAC-Bayes unleashed: generalisation bounds with unbounded losses [12.078257783674923]
非有界損失関数を持つ学習問題に対する新しいPAC-Bayesian一般化法を提案する。
これにより、PAC-Bayes学習フレームワークの妥当性と適用性が拡張される。
論文 参考訳(メタデータ) (2020-06-12T15:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。