論文の概要: Optimal Order Simple Regret for Gaussian Process Bandits
- arxiv url: http://arxiv.org/abs/2108.09262v1
- Date: Fri, 20 Aug 2021 16:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 16:05:53.506764
- Title: Optimal Order Simple Regret for Gaussian Process Bandits
- Title(参考訳): ガウス過程帯域に対する最適順序簡易レグレット
- Authors: Sattar Vakili, Nacime Bouziani, Sepehr Jalali, Alberto Bernacchia,
Da-shan Shiu
- Abstract要約: 純粋な探索アルゴリズムは既存の境界よりもかなり厳密であることを示す。
この後悔は、カーネル上の低い境界が知られている場合に、対数的に最適であることを示す。
- 参考スコア(独自算出の注目度): 6.84224661918159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider the sequential optimization of a continuous, possibly non-convex,
and expensive to evaluate objective function $f$. The problem can be cast as a
Gaussian Process (GP) bandit where $f$ lives in a reproducing kernel Hilbert
space (RKHS). The state of the art analysis of several learning algorithms
shows a significant gap between the lower and upper bounds on the simple regret
performance. When $N$ is the number of exploration trials and $\gamma_N$ is the
maximal information gain, we prove an $\tilde{\mathcal{O}}(\sqrt{\gamma_N/N})$
bound on the simple regret performance of a pure exploration algorithm that is
significantly tighter than the existing bounds. We show that this bound is
order optimal up to logarithmic factors for the cases where a lower bound on
regret is known. To establish these results, we prove novel and sharp
confidence intervals for GP models applicable to RKHS elements which may be of
broader interest.
- Abstract(参考訳): 連続、おそらく非凸の逐次最適化を考えると、目的関数 $f$ を評価するのに費用がかかる。
この問題は、再生カーネルヒルベルト空間(RKHS)に$f$を持つガウス過程(GP)バンディットとしてキャストできる。
いくつかの学習アルゴリズムのアート解析の状況は、単純な後悔性能における下限と上限の差が顕著であることを示している。
N$ が探索試行数であり、$\gamma_N$ が最大情報ゲインであるとき、既存の境界よりもかなり厳密な純粋探索アルゴリズムの単純な後悔性能に基づいて $\tilde{\mathcal{O}}(\sqrt{\gamma_N/N})$ を証明します。
この境界は、後悔に関する下限が知られている場合の対数的要因まで最適であることを示す。
これらの結果を確立するために,幅広い関心を持つrkhs要素に適用可能なgpモデルの新規かつ鋭い信頼区間を示す。
関連論文リスト
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Lenient Regret and Good-Action Identification in Gaussian Process
Bandits [43.03669155559218]
我々は、あるしきい値を超える関数値が「十分良い」という緩和された最適化基準の下で、ガウス過程(GP)バンディットの問題を研究する。
実用面では、既知のしきい値に従って1つの「良い行動」を見つけることの問題を考えるとともに、しきい値の知識を生かしたいくつかの善行動識別アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-02-11T01:16:58Z) - On Information Gain and Regret Bounds in Gaussian Process Bandits [8.499604625449907]
ノイズフィードバックの観測から、高い評価と、おそらくは非シーケンシャルな目的関数$f$の最適化を考える。
カーネルのMatern族では、$gamma_T$の低い境界と、頻繁な設定での後悔が知られている。
論文 参考訳(メタデータ) (2020-09-15T10:15:29Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Multi-Scale Zero-Order Optimization of Smooth Functions in an RKHS [19.252319300590653]
ブラックボックス関数 $f:mathcalX mapto mathbbR$ は、$f$がよりスムーズで、与えられたカーネル $K$ に関連する RKHS の有界ノルムを持つという仮定の下で最適化される。
本稿では,H の局所多項式 (LP) 推定器を用いて通常の GP 代理モデルを拡張した新しいアルゴリズム (textttLP-GP-UCB) を提案する。
論文 参考訳(メタデータ) (2020-05-11T01:55:39Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。