論文の概要: Kernel Single-Index Bandits: Estimation, Inference, and Learning
- arxiv url: http://arxiv.org/abs/2603.18938v1
- Date: Thu, 19 Mar 2026 14:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.1884
- Title: Kernel Single-Index Bandits: Estimation, Inference, and Learning
- Title(参考訳): Kernel Single-Index Bandits: 推定、推論、学習
- Authors: Sakshi Arya, Satarupa Bhattacharjee, Bharath K. Sriperumbudur,
- Abstract要約: 我々は、各アームの報酬が単一インデックスモデルに従う、有限個の動作を伴う文脈的包帯について研究する。
本稿では,Steinをベースとした指標パラメータ推定と逆プロペンシティ重み付きリッジ回帰を組み合わせた,カーネル化された$varepsilon$-greedyアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.1109381260263853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study contextual bandits with finitely many actions in which the reward of each arm follows a single-index model with an arm-specific index parameter and an unknown nonparametric link function. We consider a regime in which arms correspond to stable decision options and covariates evolve adaptively under the bandit policy. This setting creates significant statistical challenges: the sampling distribution depends on the allocation rule, observations are dependent over time, and inverse-propensity weighting induces variance inflation. We propose a kernelized $\varepsilon$-greedy algorithm that combines Stein-based estimation of the index parameters with inverse-propensity-weighted kernel ridge regression for the reward functions. This approach enables flexible semiparametric learning while retaining interpretability. Our analysis develops new tools for inference with adaptively collected data. We establish asymptotic normality for the single-index estimator under adaptive sampling, yielding valid confidence regions, and derive a directional functional central limit theorem for the RKHS estimator, which provides asymptotically valid pointwise confidence intervals. The analysis relies on concentration bounds for inverse-weighted Gram matrices together with martingale central limit theorems. We further obtain finite-time regret guarantees, including $\tilde{O}(\sqrt{T})$ rates under common-link Lipschitz conditions, showing that semiparametric structure can be exploited without sacrificing statistical efficiency. These results provide a unified framework for simultaneous learning and inference in single-index contextual bandits.
- Abstract(参考訳): 両腕の報酬は、腕固有の指標パラメータと未知の非パラメトリックリンク関数を持つ単一インデックスモデルに従う。
我々は、武器が安定的な決定オプションに対応し、包括的政策の下で共変が適応的に進化する体制を考察する。
サンプリング分布は割り当て規則に依存し、観測は時間とともに依存し、逆正則重み付けは分散インフレーションを引き起こす。
本稿では,Steinをベースとした指標パラメータ推定と,報酬関数に対する逆正重み付きカーネルリッジ回帰を組み合わせたカーネル化$\varepsilon$-greedyアルゴリズムを提案する。
このアプローチは、解釈可能性を維持しながら柔軟な半パラメトリック学習を可能にする。
本分析では,適応的に収集したデータを用いた新しい推論ツールを開発した。
我々は、適応サンプリングの下で単一指数推定器の漸近正規性を確立し、有効信頼領域を求め、RKHS推定器の方向性汎関数的中央極限定理を導出し、漸近的に有効なポイントワイド信頼区間を提供する。
この解析は、逆重み付きグラム行列の濃度境界と、マルティンゲール中心極限定理に依存する。
さらに、コモンリンクリプシッツ条件下での$\tilde{O}(\sqrt{T})$レートを含む有限時間後悔保証を得ることができ、半パラメトリック構造は統計的効率を犠牲にすることなく活用できることを示す。
これらの結果は、単一インデックスの文脈帯域における同時学習と推論のための統一的なフレームワークを提供する。
関連論文リスト
- Universality of General Spiked Tensor Models [9.454986540713655]
高次元状態におけるランクワンスパイクテンソルモデルについて検討する。
本研究では,その高次元スペクトル挙動と統計的限界が非ガウス雑音に対して頑健であることを示す。
論文 参考訳(メタデータ) (2026-02-04T11:59:30Z) - Statistical Inference under Adaptive Sampling with LinUCB [15.167069362020426]
線形帯域に対する線形上信頼境界(LinUCB)アルゴリズムは安定性という特性を満たすことを示す。
我々は、LinUCBアルゴリズムの中央極限定理を確立し、推定誤差の極限分布の正規性を確立する。
論文 参考訳(メタデータ) (2025-11-28T21:48:18Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Distribution Regression with Sliced Wasserstein Kernels [45.916342378789174]
分布回帰のための最初のOTに基づく推定器を提案する。
このような表現に基づくカーネルリッジ回帰推定器の理論的性質について検討する。
論文 参考訳(メタデータ) (2022-02-08T15:21:56Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Nonparametric Score Estimators [49.42469547970041]
未知分布によって生成されたサンプルの集合からスコアを推定することは確率モデルの推論と学習における基本的なタスクである。
正規化非パラメトリック回帰の枠組みの下で、これらの推定器の統一的なビューを提供する。
カールフリーカーネルと高速収束による計算効果を享受する反復正規化に基づくスコア推定器を提案する。
論文 参考訳(メタデータ) (2020-05-20T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。