論文の概要: Conformal Off-Policy Prediction in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2206.04405v1
- Date: Thu, 9 Jun 2022 10:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 22:04:29.753312
- Title: Conformal Off-Policy Prediction in Contextual Bandits
- Title(参考訳): コンテクスト帯域におけるコンフォーマルオフポリティ予測
- Authors: Muhammad Faaiz Taufiq, Jean-Francois Ton, Rob Cornish, Yee Whye Teh,
Arnaud Doucet
- Abstract要約: コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
- 参考スコア(独自算出の注目度): 54.67508891852636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most off-policy evaluation methods for contextual bandits have focused on the
expected outcome of a policy, which is estimated via methods that at best
provide only asymptotic guarantees. However, in many applications, the
expectation may not be the best measure of performance as it does not capture
the variability of the outcome. In addition, particularly in safety-critical
settings, stronger guarantees than asymptotic correctness may be required. To
address these limitations, we consider a novel application of conformal
prediction to contextual bandits. Given data collected under a behavioral
policy, we propose \emph{conformal off-policy prediction} (COPP), which can
output reliable predictive intervals for the outcome under a new target policy.
We provide theoretical finite-sample guarantees without making any additional
assumptions beyond the standard contextual bandit setup, and empirically
demonstrate the utility of COPP compared with existing methods on synthetic and
real-world data.
- Abstract(参考訳): 文脈的盗賊のオフ・ポリティクス評価手法の多くは、漸近的保証のみを提供する方法を通じて推定される政策の期待結果に焦点を当てている。
しかし、多くのアプリケーションでは、結果の変動を捉えないため、期待はパフォーマンスの最良の尺度ではないかもしれない。
さらに、特に安全クリティカルな設定では、漸近的正確性よりも強い保証が必要である。
これらの制約に対処するために,コンフォメーション予測のコンテキストバンディットへの応用について考察する。
行動ポリシーに基づいて収集されたデータから,新たな目標政策の下で結果に対する信頼な予測間隔を出力できる「行動予測」 (COPP) を提案する。
標準のコンテキストバンディット設定以上の仮定をすることなく,理論的な有限サンプル保証を提供するとともに,既存の合成および実世界のデータに対する手法と比較して,coppの有用性を実証的に実証する。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - A Convex Framework for Confounding Robust Inference [21.918894096307294]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
本稿では,凸プログラミングを用いてポリシー値のシャープな下限を推定する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-09-21T19:45:37Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Split Localized Conformal Prediction [20.44976410408424]
条件分布の局所近似を利用して修正された非整合性スコアを提案する。
修正されたスコアは分割共形法の精神を継承し、完全共形法と比較して単純かつ効率的である。
論文 参考訳(メタデータ) (2022-06-27T07:53:38Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。