論文の概要: Variance-Dependent Regret Lower Bounds for Contextual Bandits
- arxiv url: http://arxiv.org/abs/2503.12020v1
- Date: Sat, 15 Mar 2025 07:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:49.164179
- Title: Variance-Dependent Regret Lower Bounds for Contextual Bandits
- Title(参考訳): 文脈帯域に対する変数依存型下限境界
- Authors: Jiafan He, Quanquan Gu,
- Abstract要約: これは従来の$tildeO(dsqrtK)$ regret bound to $tildeO(dsqrtsum_k=1Ksigma_k2)$で改善されている。
- 参考スコア(独自算出の注目度): 65.93854043353328
- License:
- Abstract: Variance-dependent regret bounds for linear contextual bandits, which improve upon the classical $\tilde{O}(d\sqrt{K})$ regret bound to $\tilde{O}(d\sqrt{\sum_{k=1}^K\sigma_k^2})$, where $d$ is the context dimension, $K$ is the number of rounds, and $\sigma^2_k$ is the noise variance in round $k$, has been widely studied in recent years. However, most existing works focus on the regret upper bounds instead of lower bounds. To our knowledge, the only lower bound is from Jia et al. (2024), which proved that for any eluder dimension $d_{\textbf{elu}}$ and total variance budget $\Lambda$, there exists an instance with $\sum_{k=1}^K\sigma_k^2\leq \Lambda$ for which any algorithm incurs a variance-dependent lower bound of $\Omega(\sqrt{d_{\textbf{elu}}\Lambda})$. However, this lower bound has a $\sqrt{d}$ gap with existing upper bounds. Moreover, it only considers a fixed total variance budget $\Lambda$ and does not apply to a general variance sequence $\{\sigma_1^2,\ldots,\sigma_K^2\}$. In this paper, to overcome the limitations of Jia et al. (2024), we consider the general variance sequence under two settings. For a prefixed sequence, where the entire variance sequence is revealed to the learner at the beginning of the learning process, we establish a variance-dependent lower bound of $\Omega(d \sqrt{\sum_{k=1}^K\sigma_k^2 }/\log K)$ for linear contextual bandits. For an adaptive sequence, where an adversary can generate the variance $\sigma_k^2$ in each round $k$ based on historical observations, we show that when the adversary must generate $\sigma_k^2$ before observing the decision set $\mathcal{D}_k$, a similar lower bound of $\Omega(d\sqrt{ \sum_{k=1}^K\sigma_k^2} /\log^6(dK))$ holds. In both settings, our results match the upper bounds of the SAVE algorithm (Zhao et al., 2023) up to logarithmic factors.
- Abstract(参考訳): 古典的な$\tilde{O}(d\sqrt{K})$ regret bound to $\tilde{O}(d\sqrt{\sum_{k=1}^K\sigma_k^2})$, where $d$ is the context dimension, $K$ is the number of rounds, $\sigma^2_k$ is the noise variance in round $k$が近年広く研究されている。
しかし、現存するほとんどの著作は、下限ではなく、後悔の上限に焦点をあてている。
我々の知る限り、唯一の下界は Jia et al (2024) によるものであり、これは任意の溶出次元 $d_{\textbf{elu}}$ と全分散予算 $\Lambda$ に対して、任意のアルゴリズムが$\Omega(\sqrt{d_{\textbf{elu}}\Lambda}) の分散依存下界を誘発する$\sum_{k=1}^K\sigma_k^2\leq \Lambda$ のインスタンスが存在することを証明している。
しかし、この下界は、既存の上界とのギャップが$\sqrt{d}$である。
さらに、固定された全分散予算$\Lambda$しか考慮せず、一般的な分散列$\{\sigma_1^2,\ldots,\sigma_K^2\}$には適用されない。
本稿では,Jia et al (2024) の限界を克服するために,2つの条件下での一般分散列について考察する。
学習過程の開始時に学習者に全分散シーケンスが明らかにされるプレフィックス列に対して、線形文脈の包帯に対して$\Omega(d \sqrt{\sum_{k=1}^K\sigma_k^2 }/\log K)$の分散依存下界を確立する。
過去の観測に基づいて各ラウンド$k$の差分$\sigma_k^2$を生成できる適応列に対して、決定セット $\mathcal{D}_k$ を観察する前に、相手が$\sigma_k^2$ を生成する必要があるとき、同様の下限である $\Omega(d\sqrt{ \sum_{k=1}^K\sigma_k^2} /\log^6(dK))$ が成り立つことを示す。
いずれの設定においても,SAVEアルゴリズム(Zhao et al , 2023)の上限値と対数因子との一致が認められた。
関連論文リスト
- p-Mean Regret for Stochastic Bandits [52.828710025519996]
単純で統一された UCB ベースのアルゴリズムを導入し、新しい$p$-mean の後悔境界を実現する。
我々の枠組みは、特別な場合として、平均的な累積的後悔とナッシュ後悔の両方を包含する。
論文 参考訳(メタデータ) (2024-12-14T08:38:26Z) - How Does Variance Shape the Regret in Contextual Bandits? [59.8472760881411]
一般関数近似を用いた文脈的包帯について考察する。
共振器次元 $d_textelu$-$play が分散依存境界において重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2024-10-16T16:20:07Z) - Tight Bounds for $\gamma$-Regret via the Decision-Estimation Coefficient [88.86699022151598]
任意の構造化バンディット問題に対する$gamma$-regretの統計的特徴を与える。
この$gamma$-regretは、関数クラス$mathcalF$上の構造化バンディット問題に現れる。
論文 参考訳(メタデータ) (2023-03-06T17:54:33Z) - Faster Sampling from Log-Concave Distributions over Polytopes via a
Soft-Threshold Dikin Walk [28.431572772564518]
我々は、$d$-dimensional log-concave distribution $pi(theta) propto e-f(theta)$からポリトープ$K$に制約された$m$不等式をサンプリングする問題を考える。
我々の主な成果は、少なくとも$O((md + d L2 R2) times MDomega-1) log(fracwdelta)$ arithmetic operation to sample from $pi$ の "soft-warm' variant of the Dikin walk Markov chain" である。
論文 参考訳(メタデータ) (2022-06-19T11:33:07Z) - Variance-Aware Sparse Linear Bandits [64.70681598741417]
余分な線形包帯に対する最悪のミニマックスは$widetildeThetaleft(sqrtdTright)$である。
ノイズがなく、アクションセットが単位球面である良性設定では、ディビジョン・アンド・コンカーを使用して、$widetildemathcal O(1)$ regretを達成することができる。
我々は,任意の分散対応線形帯域幅アルゴリズムを分散対応線形帯域幅アルゴリズムに変換する汎用フレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T15:55:44Z) - Order-Optimal Error Bounds for Noisy Kernel-Based Bayesian Quadrature [42.129843613950285]
我々は、Match'ern-$nu$ kernel を用いて、Em Reproduction Kernel Hilbert Space (RKHS) の関数を考える。
ブラックボックスクエリが分散$sigma2$のガウスノイズを受ける場合、最大で$T$のアルゴリズムは平均絶対誤差$Omega(T-fracnud-1 + sigma T-frac12)$を発生しなければならない。
論文 参考訳(メタデータ) (2022-02-22T01:49:41Z) - Nonasymptotic one-and two-sample tests in high dimension with unknown
covariance structure [0.0]
テストの問題は、$mu が 0 に対して $eta-閉である場合、すなわち $|mu| geq (eta + delta)$ に対して $|mu| leq eta である。
本研究の目的は,I型とII型の両方の誤差を所定のレベルで制御できるように,最小分離距離$の漸近的上下境界を求めることである。
論文 参考訳(メタデータ) (2021-09-01T06:22:53Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。