論文の概要: Improved Regret Analysis in Gaussian Process Bandits: Optimality for Noiseless Reward, RKHS norm, and Non-Stationary Variance
- arxiv url: http://arxiv.org/abs/2502.06363v1
- Date: Mon, 10 Feb 2025 11:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:05.985650
- Title: Improved Regret Analysis in Gaussian Process Bandits: Optimality for Noiseless Reward, RKHS norm, and Non-Stationary Variance
- Title(参考訳): ガウス過程帯域における回帰分析の改善:ノイズレスリワード, RKHSノルム, 非定常変動の最適性
- Authors: Shogo Iwazaki, Shion Takeno,
- Abstract要約: 我々は,未知の報酬関数の下で後悔を最小限に抑えることを目標とするガウス過程(GP)バンドイット問題について検討する。
本稿では,GPの雑音分散パラメータの依存性を改善するために,最大後方分散の新たな上限を示す。
MVR と PE に基づくアルゴリズムは雑音分散依存的後悔の上界を達成でき、これは我々の後悔の低い下界と一致する。
- 参考スコア(独自算出の注目度): 6.379833644595456
- License:
- Abstract: We study the Gaussian process (GP) bandit problem, whose goal is to minimize regret under an unknown reward function lying in some reproducing kernel Hilbert space (RKHS). The maximum posterior variance analysis is vital in analyzing near-optimal GP bandit algorithms such as maximum variance reduction (MVR) and phased elimination (PE). Therefore, we first show the new upper bound of the maximum posterior variance, which improves the dependence of the noise variance parameters of the GP. By leveraging this result, we refine the MVR and PE to obtain (i) a nearly optimal regret upper bound in the noiseless setting and (ii) regret upper bounds that are optimal with respect to the RKHS norm of the reward function. Furthermore, as another application of our proposed bound, we analyze the GP bandit under the time-varying noise variance setting, which is the kernelized extension of the linear bandit with heteroscedastic noise. For this problem, we show that MVR and PE-based algorithms achieve noise variance-dependent regret upper bounds, which matches our regret lower bound.
- Abstract(参考訳): 我々は、再生されたカーネルヒルベルト空間(RKHS)にある未知の報酬関数の下で、後悔を最小限に抑えることを目標とするガウス過程(GP)バンディット問題を研究する。
最大後方分散分析は、最大分散還元 (MVR) や位相除去 (PE) などの準最適GP帯域幅アルゴリズムの解析に不可欠である。
そこで,我々はまず,GPの雑音分散パラメータの依存性を改善するために,最大後方分散の新たな上限を示す。
この結果を活用することで、我々はMVRとPEを洗練して得られる。
一 雑音のない設定におけるほぼ最適な後悔の上限
(ii)報酬関数のRKHSノルムに対して最適である上界を後悔する。
さらに,提案手法の別の応用として,非定常雑音による線形帯域の拡張である時間変化雑音分散条件下でのGP帯域の解析を行った。
この問題に対して,MVRとPEに基づくアルゴリズムは雑音分散依存的後悔の上界を実現し,後悔の少ない下界と一致することを示す。
関連論文リスト
- On Improved Regret Bounds In Bayesian Optimization with Gaussian Noise [2.250251490529229]
BOアルゴリズムの収束解析は、目的のためのベイズ的および頻繁な設定の下での累積的後悔に焦点を当てている。
我々はガウス雑音の頻繁な設定の下で,GPの予測誤差に新たな点を定めている。
GP-UCB と GP-TS の累積後悔結合の収束率の改善を証明した。
論文 参考訳(メタデータ) (2024-12-25T05:57:27Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Small noise analysis for Tikhonov and RKHS regularizations [0.8133739801185272]
我々は、TikhonovとRKHSの正規化におけるノルムの効果を評価するための小さなノイズ分析フレームワークを構築した。
この枠組みは, 低雑音域における正規化推定器の収束率について検討し, 従来のL2正則化器の潜在的な不安定性を明らかにする。
驚くべき洞察は、これらの分数RKHSによる過度な平滑化は、常に最適な収束率をもたらすということである。
論文 参考訳(メタデータ) (2023-05-18T15:50:33Z) - Regret Bounds for Expected Improvement Algorithms in Gaussian Process
Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。
本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。
我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:17:53Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Weighted Gaussian Process Bandits for Non-stationary Environments [30.49357960656324]
We developed WGP-UCB, a novel UCB-type algorithm based on weighted Gaussian process regression。
鍵となる課題は、無限次元の特徴写像を扱う方法である。
重み付き最大情報ゲインに対して、普遍的上界と重み依存上界を提供する。
論文 参考訳(メタデータ) (2021-07-06T03:37:33Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - No-Regret Algorithms for Time-Varying Bayesian Optimization [0.0]
我々は,時間変動環境を捉えるために,一般変動予算モデルを採用する。
R-GP-UCBとSW-GP-UCBの2つのGP-UCB型アルゴリズムを紹介します。
この結果は,線形カーネルを用いた場合の先行線形バンディット結果を回復するだけでなく,時間変動ガウス過程バンディットの先行後悔解析を補完するものである。
論文 参考訳(メタデータ) (2021-02-11T22:35:32Z) - On Signal-to-Noise Ratio Issues in Variational Inference for Deep
Gaussian Processes [55.62520135103578]
重み付き変分推論を用いたDGP(Deep Gaussian Processs)の訓練で用いられる勾配推定は,信号-雑音比(SNR)問題の影響を受けやすいことを示す。
DGPモデルの予測性能が一貫した改善につながることを示す。
論文 参考訳(メタデータ) (2020-11-01T14:38:02Z) - An Optimal Multistage Stochastic Gradient Method for Minimax Problems [8.615625517708324]
滑らかかつ強凸な凹凸配置におけるミニマックス最適化問題について検討する。
まず, 定常ステップサイズでグラディエントDescent Ascent (GDA) 法を解析した。
本稿では,学習速度の減衰スケジュールを多段階に設定した多段階型GDAを提案する。
論文 参考訳(メタデータ) (2020-02-13T18:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。