論文の概要: Stochastic Linear Bandits with Parameter Noise
- arxiv url: http://arxiv.org/abs/2601.23164v1
- Date: Fri, 30 Jan 2026 16:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.570183
- Title: Stochastic Linear Bandits with Parameter Noise
- Title(参考訳): パラメータ雑音を有する確率線形帯域
- Authors: Daniel Ezer, Alon Peled-Cohen, Yishay Mansour,
- Abstract要約: ここでは、水平方向の$T$に対する$widetildeO (sqrtd T log (K/) 2_max)$、次元$d$の$K$の一般的なアクションセット、そして、$_max$が任意のアクションに対する報酬の最大分散であることを示す。
驚くべきことに、この最適(対数的要因による)後悔境界は、非常に単純な探索探索アルゴリズムを用いて達成可能であることを示す。
- 参考スコア(独自算出の注目度): 36.09200986359924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the stochastic linear bandits with parameter noise model, in which the reward of action $a$ is $a^\top θ$ where $θ$ is sampled i.i.d. We show a regret upper bound of $\widetilde{O} (\sqrt{d T \log (K/δ) σ^2_{\max})}$ for a horizon $T$, general action set of size $K$ of dimension $d$, and where $σ^2_{\max}$ is the maximal variance of the reward for any action. We further provide a lower bound of $\widetildeΩ (d \sqrt{T σ^2_{\max}})$ which is tight (up to logarithmic factors) whenever $\log (K) \approx d$. For more specific action sets, $\ell_p$ unit balls with $p \leq 2$ and dual norm $q$, we show that the minimax regret is $\widetildeΘ (\sqrt{dT σ^2_q)}$, where $σ^2_q$ is a variance-dependent quantity that is always at most $4$. This is in contrast to the minimax regret attainable for such sets in the classic additive noise model, where the regret is of order $d \sqrt{T}$. Surprisingly, we show that this optimal (up to logarithmic factors) regret bound is attainable using a very simple explore-exploit algorithm.
- Abstract(参考訳): パラメータノイズモデルを用いて確率的線形包帯について検討し、アクションの報酬が$a^\top θ$である場合、$θ$がサンプリングされる場合、$θ$は$\widetilde{O} (\sqrt{d T \log (K/δ) σ^2_{\max})} の後悔の上界を示す。
さらに$\widetildeΩ (d \sqrt{T σ^2_{\max}})$ は、$\log (K) \approx d$ のときいつでも(対数因子まで)厳密である。
より具体的なアクション集合に対して、$\ell_p$ の単位球と$p \leq 2$ の双対ノルム $q$ は、ミニマックスの後悔は $\widetildez (\sqrt{dT σ^2_q)}$ であることを示し、$σ^2_q$ は常に 4$ である分散依存量である。
これは、古典的な加法的雑音モデルにおいてそのような集合に対して達成可能なミニマックス後悔とは対照的であり、その後悔は位数$d \sqrt{T}$である。
驚くべきことに、この最適(対数的要因による)後悔境界は、非常に単純な探索探索アルゴリズムを用いて達成可能であることを示す。
関連論文リスト
- Prior Diffusiveness and Regret in the Linear-Gaussian Bandit [25.66105507730649]
我々はトンプソンサンプリングが$tildeO(d sqrtT + d r sqrtmathrmTr(_0))$ Bayesian regret in the linear-Gaussian bandit。
新たな楕円ポテンシャルの補題を用いてこれらの結果を確立し、バーンイン項が避けられないことを示す下界を与える。
論文 参考訳(メタデータ) (2026-01-05T11:30:08Z) - Sharp Gap-Dependent Variance-Aware Regret Bounds for Tabular MDPs [54.28273395444243]
我々は,モノトニック値 Omega (MVP) アルゴリズムが,差分を考慮した差分依存残差境界を$tildeOleft(left(sum_Delta_h(s,a)>0 fracH2 log K land MathttVar_maxtextc$。
論文 参考訳(メタデータ) (2025-06-06T20:33:57Z) - Variance-Dependent Regret Lower Bounds for Contextual Bandits [65.93854043353328]
これは従来の$tildeO(dsqrtK)$ regret bound to $tildeO(dsqrtsum_k=1Ksigma_k2)$で改善されている。
論文 参考訳(メタデータ) (2025-03-15T07:09:36Z) - Nearly Minimax Optimal Submodular Maximization with Bandit Feedback [12.28389976959093]
我々は、最大$f(S_*)$と$|S_*| = k$との近似について学習者の後悔を最小限に抑える。
この作業では、$tildeOmega(min_L le k(T2/3 + sqrtn choose k - LT)$ のようにスケールするこの設定に対して、最初の minimax lower bound を確立する。
わずかに制限されたアルゴリズムクラスに対して、$tildeOmega(min_L)の強い後悔の低い境界を証明する。
論文 参考訳(メタデータ) (2023-10-27T20:19:03Z) - Context-lumpable stochastic bandits [49.024050919419366]
我々は、$S$コンテキストと$K$アクションによる文脈的盗賊問題を考える。
我々は,最大$widetilde O(r (S +K )/epsilon2)$サンプルを用いて,$epsilon$-optimal Policyを出力するアルゴリズムを提案する。
後悔の設定では、T$までの累積後悔を$widetilde O(sqrtr3(S+K)T)$で束縛するアルゴリズムを与える。
論文 参考訳(メタデータ) (2023-06-22T17:20:30Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - Bandit Phase Retrieval [45.12888201134656]
この問題におけるminimax累積後悔は$smashtilde Theta(d sqrtn)$であることを証明する。
また、minimax の単純な後悔は $smashtilde Theta(d / sqrtn)$ であり、これは適応アルゴリズムによってのみ達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T08:04:33Z) - Tight Regret Bounds for Noisy Optimization of a Brownian Motion [118.65407541895851]
本稿では,1次元ブラウン運動のベイズ最適化の問題点について考察する。
Omega(sigmasqrtT cdot log T)$.sigmasqrtT cdot log T)$.sigmasqrtT.sigmasqrtT.sigmasqrtT cdot log T)$.sigmasqrtT.sigmasqrtT.sigmasqrtT.sigmasqrtT.sigmasqrtT.sigmasqrtT.sigmasqrtT.sigmasqrtT.
論文 参考訳(メタデータ) (2020-01-25T14:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。