Fugu-MT 論文翻訳(概要): Conformal Off-Policy Prediction in Contextual Bandits

論文の概要: Conformal Off-Policy Prediction in Contextual Bandits

arxiv url: http://arxiv.org/abs/2206.04405v1
Date: Thu, 9 Jun 2022 10:39:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-10 22:04:29.753312
Title: Conformal Off-Policy Prediction in Contextual Bandits
Title（参考訳）: コンテクスト帯域におけるコンフォーマルオフポリティ予測
Authors: Muhammad Faaiz Taufiq, Jean-Francois Ton, Rob Cornish, Yee Whye Teh, Arnaud Doucet
Abstract要約: コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
参考スコア（独自算出の注目度）: 54.67508891852636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most off-policy evaluation methods for contextual bandits have focused on the expected outcome of a policy, which is estimated via methods that at best provide only asymptotic guarantees. However, in many applications, the expectation may not be the best measure of performance as it does not capture the variability of the outcome. In addition, particularly in safety-critical settings, stronger guarantees than asymptotic correctness may be required. To address these limitations, we consider a novel application of conformal prediction to contextual bandits. Given data collected under a behavioral policy, we propose \emph{conformal off-policy prediction} (COPP), which can output reliable predictive intervals for the outcome under a new target policy. We provide theoretical finite-sample guarantees without making any additional assumptions beyond the standard contextual bandit setup, and empirically demonstrate the utility of COPP compared with existing methods on synthetic and real-world data.
Abstract（参考訳）: 文脈的盗賊のオフ・ポリティクス評価手法の多くは、漸近的保証のみを提供する方法を通じて推定される政策の期待結果に焦点を当てている。しかし、多くのアプリケーションでは、結果の変動を捉えないため、期待はパフォーマンスの最良の尺度ではないかもしれない。さらに、特に安全クリティカルな設定では、漸近的正確性よりも強い保証が必要である。これらの制約に対処するために,コンフォメーション予測のコンテキストバンディットへの応用について考察する。行動ポリシーに基づいて収集されたデータから,新たな目標政策の下で結果に対する信頼な予測間隔を出力できる「行動予測」 (COPP) を提案する。標準のコンテキストバンディット設定以上の仮定をすることなく,理論的な有限サンプル保証を提供するとともに,既存の合成および実世界のデータに対する手法と比較して,coppの有用性を実証的に実証する。

関連論文リスト

Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文参考訳（メタデータ） (2025-02-22T19:54:14Z)
Epistemic Uncertainty in Conformal Scores: A Unified Approach [2.449909275410288]
等角予測法は、分布のない保証を持つ予測帯域を生成するが、不確実性を明示的に捉えることはできない。モデルに依存しないアプローチである $texttEPICSCORE$ を導入する。 $texttEPICSCORE$は、限られたデータを持つ領域の予測間隔を適応的に拡張し、データが豊富であるコンパクト間隔を維持します。
論文参考訳（メタデータ） (2025-02-10T19:42:54Z)
Adjusting Regression Models for Conditional Uncertainty Calibration [46.69079637538012]
本稿では,分割共形予測手法を適用して条件付きカバレッジを改善するために,回帰関数を訓練する新しいアルゴリズムを提案する。本研究では,条件付きカバレッジと名目付きカバレッジ率の差分を求める上限を確立し,この上限値を制御するためのエンドツーエンドアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-26T01:55:45Z)
Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-07-01T20:44:48Z)
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文参考訳（メタデータ） (2023-03-02T08:57:35Z)
Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。政策値のシャープな下限を提供する一般推定器を提案する。
論文参考訳（メタデータ） (2023-02-26T16:44:13Z)
Split Localized Conformal Prediction [20.44976410408424]
条件分布の局所近似を利用して修正された非整合性スコアを提案する。修正されたスコアは分割共形法の精神を継承し、完全共形法と比較して単純かつ効率的である。
論文参考訳（メタデータ） (2022-06-27T07:53:38Z)
Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文参考訳（メタデータ） (2021-06-01T12:01:51Z)
Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。 BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文参考訳（メタデータ） (2020-12-12T23:09:21Z)
Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文参考訳（メタデータ） (2020-06-10T03:11:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。