論文の概要: Frequentist Regret Analysis of Gaussian Process Thompson Sampling via Fractional Posteriors
- arxiv url: http://arxiv.org/abs/2602.14472v1
- Date: Mon, 16 Feb 2026 05:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.158024
- Title: Frequentist Regret Analysis of Gaussian Process Thompson Sampling via Fractional Posteriors
- Title(参考訳): 分節後部を経由したガウス過程トンプソンサンプリングの周波数レグレト解析
- Authors: Somjit Roy, Prateek Jaiswal, Anirban Bhattacharya, Debdeep Pati, Bani K. Mallick,
- Abstract要約: 既存のGP-TS分析で一般的に仮定される分散インフレーションをトンプソンサンプリングと解釈できることを示す。
我々は、情報ゲインパラメータ $_t$ と後部収縮率 $_t$ で表されるカーネルに依存しない後悔境界を導出する。
全体として、我々の分析は、カーネルクラスに広く適用されるGP-TSに対して、統一的で離散化のない後悔のフレームワークを提供する。
- 参考スコア(独自算出の注目度): 5.7099901327884695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Gaussian Process Thompson Sampling (GP-TS) for sequential decision-making over compact, continuous action spaces and provide a frequentist regret analysis based on fractional Gaussian process posteriors, without relying on domain discretization as in prior work. We show that the variance inflation commonly assumed in existing analyses of GP-TS can be interpreted as Thompson Sampling with respect to a fractional posterior with tempering parameter $α\in (0,1)$. We derive a kernel-agnostic regret bound expressed in terms of the information gain parameter $γ_t$ and the posterior contraction rate $ε_t$, and identify conditions on the Gaussian process prior under which $ε_t$ can be controlled. As special cases of our general bound, we recover regret of order $\tilde{\mathcal{O}}(T^{\frac{1}{2}})$ for the squared exponential kernel, $\tilde{\mathcal{O}}(T^{\frac{2ν+3d}{2(2ν+d)}} )$ for the Matérn-$ν$ kernel, and a bound of order $\tilde{\mathcal{O}}(T^{\frac{2ν+3d}{2(2ν+d)}})$ for the rational quadratic kernel. Overall, our analysis provides a unified and discretization-free regret framework for GP-TS that applies broadly across kernel classes.
- Abstract(参考訳): ガウス過程トンプソンサンプリング(GP-TS)を,コンパクトかつ連続的な作用空間上での逐次決定のために研究し,ガウス過程後部に基づく頻繁な後悔分析を行う。
GP-TSの既存解析で一般的に仮定される分散インフレーションは、テンパリングパラメータが$α\in (0,1)$の分数後方に対してトンプソンサンプリング(英語版)と解釈できる。
我々は、情報ゲインパラメータ$γ_t$と後部収縮率$ε_t$で表現されたカーネル非依存の後悔境界を導出し、それ以前に$ε_t$を制御できるガウス過程の条件を特定する。
一般境界の特別な場合として、二乗指数核に対して$\tilde{\mathcal{O}}(T^{\frac{1}{2}})$(T^{\frac{O}}(T^{\frac{2ν+3d}{2(2ν+d)}})$(Metérn-$ν$ kernel)$(T^{\frac{2ν+3d}{2(2ν+d)))$(T^{\frac{2ν+3d}{2(2ν)))$(Metérn-$ν$ kernel)$(T^{\frac{2ν+3d+d)))$(T^{\frac{2ν+3d(2ν+d)}})$(T^{\frac{2ν+d))$(T^{\frac{2ν+d))$(T^{\frac{2ν+d))$(T^{\frac{2ν+d))。
全体として、我々の分析は、カーネルクラスに広く適用されるGP-TSに対して、統一的で離散化のない後悔のフレームワークを提供する。
関連論文リスト
- Improved Regret Bounds for Gaussian Process Upper Confidence Bound in Bayesian Optimization [3.6985338895569204]
ガウス過程 GP-UCB アルゴリズムは高い確率で $tildeO(sqrtT)$ cumulative regret を達成することを示す。
我々の分析では、平方指数核の下では$O(sqrtT ln2 T)$ regretとなる。
論文 参考訳(メタデータ) (2025-06-02T07:38:58Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Generalized Regret Analysis of Thompson Sampling using Fractional
Posteriors [12.43000662545423]
トンプソンサンプリング(Thompson sample, TS)は、マルチアームバンディット問題を解くアルゴリズムの1つである。
TSの変種である$alpha$-TSを考え、標準的な後続分布の代わりに$alpha$-posteriorまたは$alpha$-posteriorを使用する。
論文 参考訳(メタデータ) (2023-09-12T16:15:33Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - On Information Gain and Regret Bounds in Gaussian Process Bandits [8.499604625449907]
ノイズフィードバックの観測から、高い評価と、おそらくは非シーケンシャルな目的関数$f$の最適化を考える。
カーネルのMatern族では、$gamma_T$の低い境界と、頻繁な設定での後悔が知られている。
論文 参考訳(メタデータ) (2020-09-15T10:15:29Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z) - Tight Regret Bounds for Bayesian Optimization in One Dimension [47.51554144092745]
ガウス過程とガウスサンプリングノイズの下で,ベイズ最適化(BO)の問題を一次元で考察する。
我々は、カーネル上のかなり穏やかな技術的仮定の下で、最大$T$は$Omega(sqrtT)$および$O(sqrtTlog T)$として振る舞う。
論文 参考訳(メタデータ) (2018-05-30T03:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。