論文の概要: On Regret Bounds of Thompson Sampling for Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2603.09276v1
- Date: Tue, 10 Mar 2026 07:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.113149
- Title: On Regret Bounds of Thompson Sampling for Bayesian Optimization
- Title(参考訳): ベイズ最適化のためのトンプソンサンプリングの回帰境界について
- Authors: Shion Takeno, Shogo Iwazaki,
- Abstract要約: 本稿では、目的関数がGPからのサンプルパスであるという仮定の下で、GP-TSに対するいくつかの後悔の限界を示す。
本稿では,最近の分析から必要条件の緩和を含むいくつかの有用な補題について述べる。
- 参考スコア(独自算出の注目度): 11.839451192366786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a widely used Bayesian optimization method, Gaussian process Thompson sampling (GP-TS), under the assumption that the objective function is a sample path from a GP. Compared with the GP upper confidence bound (GP-UCB) with established high-probability and expected regret bounds, most analyses of GP-TS have been limited to expected regret. Moreover, whether the recent analyses of GP-UCB for the lenient regret and the improved cumulative regret upper bound can be applied to GP-TS remains unclear. To fill these gaps, this paper shows several regret bounds: (i) a regret lower bound for GP-TS, which implies that GP-TS suffers from a polynomial dependence on $1/δ$ with probability $δ$, (ii) an upper bound of the second moment of cumulative regret, which directly suggests an improved regret upper bound on $δ$, (iii) expected lenient regret upper bounds, and (iv) an improved cumulative regret upper bound on the time horizon $T$. Along the way, we provide several useful lemmas, including a relaxation of the necessary condition from recent analysis to obtain improved regret upper bounds on $T$.
- Abstract(参考訳): 目的関数がGPからのサンプルパスであるという仮定のもと,広く用いられているベイズ最適化手法であるガウス過程トンプソンサンプリング(GP-TS)について検討した。
GP-UCBと高い確率と期待された後悔境界との比較では,GP-TSのほとんどの分析は期待された後悔に限られている。
さらに, 寛大な後悔に対するGP-UCBの最近の解析と, 累積的後悔上限の改善がGP-TSに適用可能かどうかも明らかになっていない。
これらのギャップを埋めるために、本論文はいくつかの後悔すべき境界を示す。
i) GP-TS に対する残念な下限は、GP-TS が確率 $δ$ の 1/δ$ 上の多項式依存に苦しむことを意味する。
(ii) 累積後悔の第2モーメントの上限は、$δ$ 上の改善された後悔の上限を直接示唆する。
(三)寛大な後悔の上限を期待し、
(四)時間地平線上の累積後悔上限を改良したT$。
その過程で,最近の解析から必要条件の緩和を含むいくつかの有用な補題が提供され,T$に対する改善された後悔の上界が得られる。
関連論文リスト
- Improved Regret Bounds for Gaussian Process Upper Confidence Bound in Bayesian Optimization [3.6985338895569204]
ガウス過程 GP-UCB アルゴリズムは高い確率で $tildeO(sqrtT)$ cumulative regret を達成することを示す。
我々の分析では、平方指数核の下では$O(sqrtT ln2 T)$ regretとなる。
論文 参考訳(メタデータ) (2025-06-02T07:38:58Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Regret Analysis for Randomized Gaussian Process Upper Confidence Bound [9.967062483758632]
本稿では,GP-UCBの改良型であるGP-UCBのランダム化変異を解析する。
一定の信頼度パラメータを用いたGP-UCBは,線形に増大する累積的後悔を生じさせることを示す。
論文 参考訳(メタデータ) (2024-09-02T06:49:29Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - First-Order Regret in Reinforcement Learning with Linear Function
Approximation: A Robust Estimation Approach [57.570201404222935]
我々は,大規模状態空間を用いた強化学習において,$mathcalO(sqrtV_1star K)$として,後悔のスケーリングが得られることを示す。
この結果を得るためには,少なくとも2乗推定に基づく既存手法は不十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T00:29:57Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。