論文の概要: Statistical Inference for Misspecified Contextual Bandits
- arxiv url: http://arxiv.org/abs/2509.06287v1
- Date: Mon, 08 Sep 2025 02:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.941964
- Title: Statistical Inference for Misspecified Contextual Bandits
- Title(参考訳): 相違した文脈帯域の統計的推測
- Authors: Yongyi Guo, Ziping Xu,
- Abstract要約: コンテキストバンディットアルゴリズムは、パーソナライズされた治療のためのリアルタイム適応を可能にすることで、近代的な実験を変革した。
しかし、これらの利点は適応性による統計的推測の課題を生み出す。
収束は適応実験の再現性とオンラインアルゴリズムの安定性を保証する。
- 参考スコア(独自算出の注目度): 6.178061357164435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual bandit algorithms have transformed modern experimentation by enabling real-time adaptation for personalized treatment and efficient use of data. Yet these advantages create challenges for statistical inference due to adaptivity. A fundamental property that supports valid inference is policy convergence, meaning that action-selection probabilities converge in probability given the context. Convergence ensures replicability of adaptive experiments and stability of online algorithms. In this paper, we highlight a previously overlooked issue: widely used algorithms such as LinUCB may fail to converge when the reward model is misspecified, and such non-convergence creates fundamental obstacles for statistical inference. This issue is practically important, as misspecified models -- such as linear approximations of complex dynamic system -- are often employed in real-world adaptive experiments to balance bias and variance. Motivated by this insight, we propose and analyze a broad class of algorithms that are guaranteed to converge even under model misspecification. Building on this guarantee, we develop a general inference framework based on an inverse-probability-weighted Z-estimator (IPW-Z) and establish its asymptotic normality with a consistent variance estimator. Simulation studies confirm that the proposed method provides robust and data-efficient confidence intervals, and can outperform existing approaches that exist only in the special case of offline policy evaluation. Taken together, our results underscore the importance of designing adaptive algorithms with built-in convergence guarantees to enable stable experimentation and valid statistical inference in practice.
- Abstract(参考訳): コンテキスト帯域幅アルゴリズムは、パーソナライズされた処理と効率的なデータ利用のためのリアルタイム適応を可能にすることで、現代の実験を変革した。
しかし、これらの利点は適応性による統計的推測の課題を生み出す。
有効な推論をサポートする基本的な性質はポリシー収束(英語版)であり、つまり行動選択確率は文脈が与えられた確率で収束することを意味する。
収束は適応実験の再現性とオンラインアルゴリズムの安定性を保証する。
本稿では,LinUCBのような広範に使用されているアルゴリズムは,報酬モデルが不特定である場合に収束しない可能性があり,そのような非収束性は統計的推論の基本的な障害を生み出す。
この問題は、複雑な力学系の線形近似のような不特定モデルが、バイアスと分散のバランスをとるために実世界の適応実験でしばしば用いられるため、事実上重要である。
この知見に触発され、モデルのミススペクテーションの下でも収束することが保証される幅広い種類のアルゴリズムを提案し、分析する。
この保証に基づいて、逆確率重み付きZ-推定器(IPW-Z)に基づく一般推論フレームワークを開発し、一貫した分散推定器を用いて漸近正規性を確立する。
シミュレーション研究は,提案手法が堅牢かつデータ効率の高い信頼区間を提供し,オフライン政策評価の特殊な場合にのみ存在する既存手法よりも優れていることを確認した。
本研究の結果は、安定な実験と統計的推測を可能にするために、収束保証を組み込んだ適応アルゴリズムを設計することの重要性を強調した。
関連論文リスト
- Conformal and kNN Predictive Uncertainty Quantification Algorithms in Metric Spaces [3.637162892228131]
オラクル推定器の有限サンプルカバレッジ保証と高速収束率を提供する共形予測アルゴリズムを開発した。
不整合性の設定では、統計的効率を得るためにこれらの非漸近性保証を強制する。
ランダム応答オブジェクトを含むパーソナライズ・メディカルアプリケーションにおいて,本手法の実用性を実証する。
論文 参考訳(メタデータ) (2025-07-21T15:54:13Z) - Efficient Adaptive Experimentation with Non-Compliance [39.43227019824619]
本研究では, 適応実験における平均治療効果 (ATE) の推定問題について検討する。
AMRIV は最適アロケーションを (ii) 乗算整合性を維持しつつ半パラメトリック効率を達成できる逐次的影響関数に基づく推定器で適応的に近似するオンラインポリシーである。
論文 参考訳(メタデータ) (2025-05-23T04:49:14Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - Distribution-Free Calibration of Statistical Confidence Sets [2.283561089098417]
本研究では,TRUSTとTRUST++という2つの新しい手法を導入する。
我々は,本手法が既存のアプローチ,特に小サンプル方式よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-11-28T20:45:59Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
現在の最先端の成果を改善するために,3つの重要なコントリビューションを行います。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Probabilistic Conformal Prediction with Approximate Conditional Validity [81.30551968980143]
本研究では,共形手法の柔軟性と条件分布の推定を組み合わせ,予測セットを生成する手法を開発した。
我々の手法は、条件付きカバレッジの観点から既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-01T20:44:48Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Statistical optimality and stability of tangent transform algorithms in
logit models [6.9827388859232045]
我々は,データ生成過程の条件として,ロジカルオプティマによって引き起こされるリスクに対して,非漸近上界を導出する。
特に,データ生成過程の仮定なしにアルゴリズムの局所的変動を確立する。
我々は,大域収束が得られる半直交設計を含む特別な場合について検討する。
論文 参考訳(メタデータ) (2020-10-25T05:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。