論文の概要: Avoiding the Price of Adaptivity: Inference in Linear Contextual Bandits via Stability
- arxiv url: http://arxiv.org/abs/2512.20368v1
- Date: Tue, 23 Dec 2025 13:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.895277
- Title: Avoiding the Price of Adaptivity: Inference in Linear Contextual Bandits via Stability
- Title(参考訳): 適応性の価格を回避する:安定性による線形文脈帯域の推論
- Authors: Samya Praharaj, Koulik Khamaru,
- Abstract要約: 安定性と統計的効率は、単一の文脈的帯域幅法で共存することができると論じる。
本アルゴリズムは,対数的因子に最適化された最小限の誤差保証を実現する。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Statistical inference in contextual bandits is complicated by the adaptive, non-i.i.d. nature of the data. A growing body of work has shown that classical least-squares inference may fail under adaptive sampling, and that constructing valid confidence intervals for linear functionals of the model parameter typically requires paying an unavoidable inflation of order $\sqrt{d \log T}$. This phenomenon -- often referred to as the price of adaptivity -- highlights the inherent difficulty of reliable inference under general contextual bandit policies. A key structural property that circumvents this limitation is the \emph{stability} condition of Lai and Wei, which requires the empirical feature covariance to concentrate around a deterministic limit. When stability holds, the ordinary least-squares estimator satisfies a central limit theorem, and classical Wald-type confidence intervals -- designed for i.i.d. data -- become asymptotically valid even under adaptation, \emph{without} incurring the $\sqrt{d \log T}$ price of adaptivity. In this paper, we propose and analyze a penalized EXP4 algorithm for linear contextual bandits. Our first main result shows that this procedure satisfies the Lai--Wei stability condition and therefore admits valid Wald-type confidence intervals for linear functionals. Our second result establishes that the same algorithm achieves regret guarantees that are minimax optimal up to logarithmic factors, demonstrating that stability and statistical efficiency can coexist within a single contextual bandit method. Finally, we complement our theory with simulations illustrating the empirical normality of the resulting estimators and the sharpness of the corresponding confidence intervals.
- Abstract(参考訳): 文脈的包帯の統計的推論は、適応的で非I.d.データの性質によって複雑である。
増大する研究の結果として、古典的な最小二乗推論は適応的なサンプリングで失敗する可能性があり、モデルパラメータの線形汎函数に対して有効な信頼区間を構築するには、通常、$\sqrt{d \log T}$の不可避なインフレーションを払う必要がある。
この現象(しばしば適応性の価格と呼ばれる)は、一般的な文脈的バンディット政策の下での信頼性推論の固有の困難さを浮き彫りにする。
この制限を回避している重要な構造的特性は、レイとワイの 'emph{stability} 条件であり、これは経験的特徴共分散が決定論的極限の周りに集中する必要がある。
安定性が保たれたとき、通常の最小二乗推定器は中心極限定理を満足し、古典的なウォルド型信頼区間(すなわちデータのために設計された)は漸近的に有効となり、 \emph{without} は $\sqrt{d \log T}$ の適応率の代償を生じる。
本稿では,線形文脈帯域に対するペナル化EXP4アルゴリズムの提案と解析を行う。
最初の主な結果は、この手順がレイ・ヴェイ安定条件を満たすことを示し、従って線形汎函数に対するウォルド型信頼区間が有効であることを示している。
2つ目の結果は、同じアルゴリズムが対数的要因まで最小限に最適である後悔の保証を達成し、安定性と統計的効率が単一の文脈的帯域幅法で共存可能であることを証明している。
最後に、得られた推定器の経験的正規性と対応する信頼区間の鋭さを説明できるシミュレーションを用いて、我々の理論を補完する。
関連論文リスト
- Statistical Inference under Adaptive Sampling with LinUCB [15.167069362020426]
線形帯域に対する線形上信頼境界(LinUCB)アルゴリズムは安定性という特性を満たすことを示す。
我々は、LinUCBアルゴリズムの中央極限定理を確立し、推定誤差の極限分布の正規性を確立する。
論文 参考訳(メタデータ) (2025-11-28T21:48:18Z) - Optimal Regularization Under Uncertainty: Distributional Robustness and Convexity Constraints [9.77322868877488]
分布的に堅牢な最適正規化のためのフレームワークを導入する。
トレーニング分布の計算と均一な事前計算との間には,ロバストな正則化器がどのように介在するかを示す。
論文 参考訳(メタデータ) (2025-10-03T19:35:38Z) - Statistical Inference for Misspecified Contextual Bandits [6.178061357164435]
コンテキストバンディットアルゴリズムは、パーソナライズされた治療のためのリアルタイム適応を可能にすることで、近代的な実験を変革した。
しかし、これらの利点は適応性による統計的推測の課題を生み出す。
収束は適応実験の再現性とオンラインアルゴリズムの安定性を保証する。
論文 参考訳(メタデータ) (2025-09-08T02:19:37Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Inference on Strongly Identified Functionals of Weakly Identified
Functions [71.42652863687117]
本研究では,ニュアンス関数が存在しない場合でも,関数を強く識別するための新しい条件について検討する。
本稿では,プライマリおよびデバイアスのニュアンス関数に対するペナル化ミニマックス推定器を提案する。
論文 参考訳(メタデータ) (2022-08-17T13:38:31Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。