論文の概要: Refined PAC-Bayes Bounds for Offline Bandits
- arxiv url: http://arxiv.org/abs/2502.11953v1
- Date: Mon, 17 Feb 2025 16:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:30.886137
- Title: Refined PAC-Bayes Bounds for Offline Bandits
- Title(参考訳): オフラインバンド用PAC-Bayes境界の精製
- Authors: Amaury Gouverneur, Tobias J. Oechtering, Mikael Skoglund,
- Abstract要約: バンディット問題におけるオフポリシー学習における経験的報酬推定の確率的境界について検討した。
我々はRodr'iguezらによって導入された新しいパラメータ最適化アプローチを用いる。
我々は「確率」パラメータを設定することによって得られるのと同じ速度を回復するので、我々の境界はほぼ最適であることを示す。
- 参考スコア(独自算出の注目度): 37.82763068378491
- License:
- Abstract: In this paper, we present refined probabilistic bounds on empirical reward estimates for off-policy learning in bandit problems. We build on the PAC-Bayesian bounds from Seldin et al. (2010) and improve on their results using a new parameter optimization approach introduced by Rodr\'iguez et al. (2024). This technique is based on a discretization of the space of possible events to optimize the "in probability" parameter. We provide two parameter-free PAC-Bayes bounds, one based on Hoeffding-Azuma's inequality and the other based on Bernstein's inequality. We prove that our bounds are almost optimal as they recover the same rate as would be obtained by setting the "in probability" parameter after the realization of the data.
- Abstract(参考訳): 本稿では,バンディット問題における非政治学習における経験的報酬推定の確率的境界について述べる。
我々は、Seldin et al (2010) の PAC-Bayesian 境界の上に構築し、Rodr\'iguez et al (2024) によって導入された新しいパラメータ最適化アプローチを用いて結果を改善する。
この手法は「確率」パラメータを最適化するために起こりうる事象の空間の離散化に基づいている。
我々は2つのパラメータフリーなPAC-Bayes境界を提供し、1つはHoeffding-Azumaの不等式に基づくもので、もう1つはBernsteinの不等式に基づくものである。
我々は、データの実現後に「確率」パラメータを設定することによって得られるのと同じ速度を回復するので、我々の境界はほぼ最適であることを示す。
関連論文リスト
- Uniform Generalization Bounds on Data-Dependent Hypothesis Sets via PAC-Bayesian Theory on Random Sets [25.250314934981233]
PAC-Bayesian framework on "random set" を厳密な方法で適用し、トレーニングアルゴリズムがデータ依存仮説セットを出力すると仮定する。
このアプローチにより、多くのコンテキストに適用可能な、データ依存のバウンダリを証明できます。
論文 参考訳(メタデータ) (2024-04-26T14:28:18Z) - PAC-Bayes-Chernoff bounds for unbounded losses [9.987130158432755]
PAC-Bayes Oracle bound for unbounded loss that extends Cram'er-Chernoff bounds to the PAC-Bayesian set。
我々のアプローチは、多くのPAC-Bayes境界における自由パラメータの正確な最適化など、Cram'er-Chernoff境界の性質を自然に活用する。
論文 参考訳(メタデータ) (2024-01-02T10:58:54Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Lower Bounds on the Bayesian Risk via Information Measures [17.698319441265223]
マルコフの不等式を介して双対を上界にすることで、あらゆる情報測度でリスクを低くすることができることを示す。
サンプル数における下位境界の挙動は、情報尺度の選択によって影響される。
観測結果が民営化される場合、強いデータ・プロシーシングの不等式により、強い不合理性が得られる。
論文 参考訳(メタデータ) (2023-03-22T12:09:12Z) - Optimality of Thompson Sampling with Noninformative Priors for Pareto
Bandits [81.45853204922795]
トンプソンサンプリングは、いくつかの報酬モデルにおいて問題依存の低い境界を達成することが示されている。
重い尾を持つパレートモデルに対するTSの最適性は、2つの未知のパラメータによってパラメータ化される。
ジェフリーズおよび参照先行値を持つTSは、トラルニケート手順を使用すると、下界を達成できる。
論文 参考訳(メタデータ) (2023-02-03T04:47:14Z) - Double Robust Bayesian Inference on Average Treatment Effects [2.458652618559425]
不整合下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。
新しいベイズ的アプローチでは、まず条件付き平均関数の事前分布を調整し、得られた ATE の後方分布を補正する。
論文 参考訳(メタデータ) (2022-11-29T15:32:25Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Randomised Gaussian Process Upper Confidence Bound for Bayesian
Optimisation [60.93091603232817]
改良されたガウス過程上信頼境界(GP-UCB)取得関数を開発した。
これは、分布から探索・探索トレードオフパラメータをサンプリングすることによって行われる。
これにより、期待されるトレードオフパラメータが、関数のベイズ的後悔に縛られることなく、問題によりよく適合するように変更できることが証明される。
論文 参考訳(メタデータ) (2020-06-08T00:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。