論文の概要: On Information Gain and Regret Bounds in Gaussian Process Bandits
- arxiv url: http://arxiv.org/abs/2009.06966v3
- Date: Tue, 9 Mar 2021 22:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:49:00.732967
- Title: On Information Gain and Regret Bounds in Gaussian Process Bandits
- Title(参考訳): ガウス過程帯域における情報ゲインとレグレト境界について
- Authors: Sattar Vakili, Kia Khezeli, Victor Picheny
- Abstract要約: ノイズフィードバックの観測から、高い評価と、おそらくは非シーケンシャルな目的関数$f$の最適化を考える。
カーネルのMatern族では、$gamma_T$の低い境界と、頻繁な設定での後悔が知られている。
- 参考スコア(独自算出の注目度): 8.499604625449907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider the sequential optimization of an expensive to evaluate and possibly
non-convex objective function $f$ from noisy feedback, that can be considered
as a continuum-armed bandit problem. Upper bounds on the regret performance of
several learning algorithms (GP-UCB, GP-TS, and their variants) are known under
both a Bayesian (when $f$ is a sample from a Gaussian process (GP)) and a
frequentist (when $f$ lives in a reproducing kernel Hilbert space) setting. The
regret bounds often rely on the maximal information gain $\gamma_T$ between $T$
observations and the underlying GP (surrogate) model. We provide general bounds
on $\gamma_T$ based on the decay rate of the eigenvalues of the GP kernel,
whose specialisation for commonly used kernels, improves the existing bounds on
$\gamma_T$, and subsequently the regret bounds relying on $\gamma_T$ under
numerous settings. For the Mat\'ern family of kernels, where the lower bounds
on $\gamma_T$, and regret under the frequentist setting, are known, our results
close a huge polynomial in $T$ gap between the upper and lower bounds (up to
logarithmic in $T$ factors).
- Abstract(参考訳): 連続武装バンディット問題(continuum-armed bandit problem)と見なすことができるノイズフィードバックから、評価およびおそらく非凸目的関数 $f$ の逐次最適化を考える。
いくつかの学習アルゴリズム(GP-UCB, GP-TS, およびそれらの変種)の後悔性能に関する上限は、ベイジアン(ガウス過程(GP)のサンプルである$f$)と、再現されたカーネルヒルベルト空間における頻繁な(f$の寿命)の両方で知られている。
後悔境界はしばしば、$T$観測と基礎となるGP(代理)モデルの間の最大情報を得る$\gamma_T$に依存する。
一般的に使用されるカーネルを専門とするgpカーネルの固有値の減衰率に基づいて、$\gamma_t$の一般的な境界を提供し、その後、多数の設定下で$\gamma_t$に依存する後悔の限界を提供する。
mat\'ern(英語版) のカーネル族(英語版)では、ここでは $\gamma_t$ の下限と、頻繁な設定の下で後悔することが知られているが、この結果は、上限と下限の間の$t$ の差で巨大な多項式を閉じる($t$ の対数まで)。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Kernelized Normalizing Constant Estimation: Bridging Bayesian Quadrature
and Bayesian Optimization [51.533164528799084]
小さい相対誤差内で正規化定数を推定するために、難易度は$lambda$の値に依存する。
関数評価がノイズである場合でも,このパターンは真であることがわかった。
論文 参考訳(メタデータ) (2024-01-11T07:45:09Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Delayed Feedback in Kernel Bandits [16.11544965325835]
未知の機能のブラックボックス最適化は、機械学習、学術研究、工業生産においてユビキタスな問題である。
カーネルの帯域幅問題について検討し,$tildemathcalO(sqrtGamma_k(T)T+mathbbE[tau]Gamma_k(T))$を用いたアルゴリズムを提案する。
これは、 $tildemathcalO(Gamma_k(T)sqrtT のアート・リトリート境界に対する顕著な改善を示している。
論文 参考訳(メタデータ) (2023-02-01T12:03:19Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - Optimal Order Simple Regret for Gaussian Process Bandits [6.84224661918159]
純粋な探索アルゴリズムは既存の境界よりもかなり厳密であることを示す。
この後悔は、カーネル上の低い境界が知られている場合に、対数的に最適であることを示す。
論文 参考訳(メタデータ) (2021-08-20T16:49:32Z) - Multi-Scale Zero-Order Optimization of Smooth Functions in an RKHS [19.252319300590653]
ブラックボックス関数 $f:mathcalX mapto mathbbR$ は、$f$がよりスムーズで、与えられたカーネル $K$ に関連する RKHS の有界ノルムを持つという仮定の下で最適化される。
本稿では,H の局所多項式 (LP) 推定器を用いて通常の GP 代理モデルを拡張した新しいアルゴリズム (textttLP-GP-UCB) を提案する。
論文 参考訳(メタデータ) (2020-05-11T01:55:39Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。