論文の概要: High dimensional stochastic linear contextual bandit with missing
covariates
- arxiv url: http://arxiv.org/abs/2207.11165v1
- Date: Fri, 22 Jul 2022 16:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:46:08.476792
- Title: High dimensional stochastic linear contextual bandit with missing
covariates
- Title(参考訳): 共変量を持たない高次元確率線形文脈バンディット
- Authors: Byoungwook Jang, Julia Nepper, Marc Chevrette, Jo Handelsman, Alfred
O. Hero III
- Abstract要約: バンドイット問題における最近の研究は、逐次決定設定においてラッソ収束理論を採用した。
1) 条件付き準ガウス雑音下での制限された固有値条件を証明すること、2) 文脈変数と選択された行動の間の依存を考慮に入れること。
- 参考スコア(独自算出の注目度): 19.989315104929354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works in bandit problems adopted lasso convergence theory in the
sequential decision-making setting. Even with fully observed contexts, there
are technical challenges that hinder the application of existing lasso
convergence theory: 1) proving the restricted eigenvalue condition under
conditionally sub-Gaussian noise and 2) accounting for the dependence between
the context variables and the chosen actions. This paper studies the effect of
missing covariates on regret for stochastic linear bandit algorithms. Our work
provides a high-probability upper bound on the regret incurred by the proposed
algorithm in terms of covariate sampling probabilities, showing that the regret
degrades due to missingness by at most $\zeta_{min}^2$, where $\zeta_{min}$ is
the minimum probability of observing covariates in the context vector. We
illustrate our algorithm for the practical application of experimental design
for collecting gene expression data by a sequential selection of class
discriminating DNA probes.
- Abstract(参考訳): バンドイット問題における最近の研究は、逐次決定設定においてラッソ収束理論を採用した。
完全に観察された文脈であっても、既存のラッソ収束理論の適用を妨げる技術的課題がある。
1)条件付き準ガウス雑音下での制限固有値条件の証明
2) コンテキスト変数と選択されたアクションの間の依存を考慮に入れます。
本稿では,確率線形バンディットアルゴリズムの後悔に対する共変量の欠如の影響について検討する。
本研究は,共変量サンプリング確率の観点から,提案アルゴリズムが生み出した後悔に対する高い確率上限を与え,その後悔が最大$\zeta_{min}^2$ によって低下することを示し,ここでは$\zeta_{min}$が文脈ベクトルにおける共変量観測の最小確率である。
本稿では,クラス識別型dnaプローブの逐次選択による遺伝子発現データ収集のための実験設計の実用化について述べる。
関連論文リスト
- Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。
マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文 参考訳(メタデータ) (2024-11-10T01:47:11Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Imputation for High-Dimensional Linear Regression [8.841513006680886]
LASSOは乱数設定において最小推定率を保持することを示す。
この設定では、共同根源は未成年のままである。
論文 参考訳(メタデータ) (2020-01-24T19:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。