論文の概要: PAC Off-Policy Prediction of Contextual Bandits
- arxiv url: http://arxiv.org/abs/2507.16236v1
- Date: Tue, 22 Jul 2025 05:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.970382
- Title: PAC Off-Policy Prediction of Contextual Bandits
- Title(参考訳): 文脈帯域のPACオフポリティ予測
- Authors: Yilong Wan, Yuqiang Li, Xianyi Wu,
- Abstract要約: 本稿では,文脈的盗賊の政治外評価について検討する。
それは、異なる、潜在的に未知の行動ポリシーの下で収集されたデータを用いて、ターゲットポリシーのパフォーマンスを定量化することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates off-policy evaluation in contextual bandits, aiming to quantify the performance of a target policy using data collected under a different and potentially unknown behavior policy. Recently, methods based on conformal prediction have been developed to construct reliable prediction intervals that guarantee marginal coverage in finite samples, making them particularly suited for safety-critical applications. To further achieve coverage conditional on a given offline data set, we propose a novel algorithm that constructs probably approximately correct prediction intervals. Our method builds upon a PAC-valid conformal prediction framework, and we strengthen its theoretical guarantees by establishing PAC-type bounds on coverage. We analyze both finite-sample and asymptotic properties of the proposed method, and compare its empirical performance with existing methods in simulations.
- Abstract(参考訳): 本稿では,異なる,潜在的に未知な行動方針の下で収集されたデータを用いて,対象政策の性能を定量化することを目的とした,文脈的盗賊の非政治的評価について検討する。
近年,コンフォメーション予測に基づく手法が開発され,有限サンプルの限界カバレッジを保証する信頼性のある予測区間が構築され,特に安全クリティカルな応用に適している。
与えられたオフラインデータセットのカバレッジ条件をさらに高めるために,ほぼ正確な予測間隔を構成する新しいアルゴリズムを提案する。
提案手法は,PAC-valid共形予測フレームワークを基盤として,PAC-type bounds on coverageを確立することにより,その理論的保証を強化する。
提案手法の有限サンプルおよび漸近特性を解析し,その経験的性能とシミュレーションにおける既存手法との比較を行った。
関連論文リスト
- Kandinsky Conformal Prediction: Beyond Class- and Covariate-Conditional Coverage [25.945248419737318]
コンフォーマル予測は、カバレッジ保証付き予測セットを構築するための強力な分散フリーフレームワークである。
条件付きカバレッジ保証の範囲を大幅に拡大するフレームワークであるKandinsky conformal predictionを提案する。
提案アルゴリズムは既存の手法を統一・拡張し,極小最適高確率条件付き範囲を実現する。
論文 参考訳(メタデータ) (2025-02-24T15:46:18Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Adjusting Regression Models for Conditional Uncertainty Calibration [46.69079637538012]
本稿では,分割共形予測手法を適用して条件付きカバレッジを改善するために,回帰関数を訓練する新しいアルゴリズムを提案する。
本研究では,条件付きカバレッジと名目付きカバレッジ率の差分を求める上限を確立し,この上限値を制御するためのエンドツーエンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T01:55:45Z) - Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z) - Robust Conformal Prediction Using Privileged Information [17.886554223172517]
本研究では,トレーニングデータの破損に対して堅牢な,保証されたカバレッジ率で予測セットを生成する手法を開発した。
我々のアプローチは、i.d仮定の下で有効となる予測セットを構築するための強力なフレームワークである共形予測に基づいている。
論文 参考訳(メタデータ) (2024-06-08T08:56:47Z) - Probabilistic Conformal Prediction Using Conditional Random Samples [73.26753677005331]
PCPは、不連続な予測セットによって対象変数を推定する予測推論アルゴリズムである。
効率的で、明示的または暗黙的な条件生成モデルと互換性がある。
論文 参考訳(メタデータ) (2022-06-14T03:58:03Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。