論文の概要: Misspecified Gaussian Process Bandit Optimization
- arxiv url: http://arxiv.org/abs/2111.05008v1
- Date: Tue, 9 Nov 2021 09:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 14:50:05.577245
- Title: Misspecified Gaussian Process Bandit Optimization
- Title(参考訳): 未特定ガウス過程帯域最適化
- Authors: Ilija Bogunovic and Andreas Krause
- Abstract要約: カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
- 参考スコア(独自算出の注目度): 59.30399661155574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of optimizing a black-box function based on noisy
bandit feedback. Kernelized bandit algorithms have shown strong empirical and
theoretical performance for this problem. They heavily rely on the assumption
that the model is well-specified, however, and can fail without it. Instead, we
introduce a \emph{misspecified} kernelized bandit setting where the unknown
function can be $\epsilon$--uniformly approximated by a function with a bounded
norm in some Reproducing Kernel Hilbert Space (RKHS). We design efficient and
practical algorithms whose performance degrades minimally in the presence of
model misspecification. Specifically, we present two algorithms based on
Gaussian process (GP) methods: an optimistic EC-GP-UCB algorithm that requires
knowing the misspecification error, and Phased GP Uncertainty Sampling, an
elimination-type algorithm that can adapt to unknown model misspecification. We
provide upper bounds on their cumulative regret in terms of $\epsilon$, the
time horizon, and the underlying kernel, and we show that our algorithm
achieves optimal dependence on $\epsilon$ with no prior knowledge of
misspecification. In addition, in a stochastic contextual setting, we show that
EC-GP-UCB can be effectively combined with the regret bound balancing strategy
and attain similar regret bounds despite not knowing $\epsilon$.
- Abstract(参考訳): 雑音フィードバックに基づいてブラックボックス関数を最適化する問題を考察する。
カーネル化バンディットアルゴリズムはこの問題に対して強い経験的および理論的性能を示した。
しかし、モデルは十分に特定されており、それなしで失敗する可能性があるという仮定に強く依存している。
代わりに、未知の関数を$\epsilon$-一様に近似できる 'emph{misspecified} のカーネル化された帯域設定を導入し、ある再生カーネルヒルベルト空間 (RKHS) において有界ノルムを持つ関数によって一様近似する。
モデル不特定性の存在下で性能が最小限に低下する効率的かつ実用的なアルゴリズムを設計する。
具体的には,gaussian process (gp) 法に基づく2つのアルゴリズムを提案する。不特定化誤差を知ることを必要とする楽観的な ec-gp-ucb アルゴリズムと,未知のモデル不特定化に適応可能な除去型アルゴリズムである phased gp uncertainty sampling である。
我々は、その累積的後悔の上限として、$\epsilon$, the time horizon, and the underlying kernel を提示し、このアルゴリズムが、事前の誤特定の知識なしに$\epsilon$への最適依存を達成することを示す。
さらに, 確率的な文脈設定において, ec-gp-ucbは, $\epsilon$ を知らずとも, 効果的に後悔境界バランス戦略と組み合わされ, 同様の後悔限度が得られることを示した。
関連論文リスト
- Regret Bounds for Expected Improvement Algorithms in Gaussian Process
Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。
本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。
我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:17:53Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Adversarial Robustness Guarantees for Gaussian Processes [22.403365399119107]
ガウス過程(GP)は、モデルの不確実性の原理的計算を可能にし、安全性に重要なアプリケーションに魅力的です。
境界付き摂動に対するモデル決定の不変性として定義されるGPの対向的堅牢性を分析するためのフレームワークを提案する。
我々は境界を洗練し、任意の$epsilon > 0$に対して、我々のアルゴリズムが有限個の反復で実際の値に$epsilon$-closeの値に収束することを保証していることを示す分岐とバウンドのスキームを開発する。
論文 参考訳(メタデータ) (2021-04-07T15:14:56Z) - Lenient Regret and Good-Action Identification in Gaussian Process
Bandits [43.03669155559218]
我々は、あるしきい値を超える関数値が「十分良い」という緩和された最適化基準の下で、ガウス過程(GP)バンディットの問題を研究する。
実用面では、既知のしきい値に従って1つの「良い行動」を見つけることの問題を考えるとともに、しきい値の知識を生かしたいくつかの善行動識別アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-02-11T01:16:58Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Multi-Scale Zero-Order Optimization of Smooth Functions in an RKHS [19.252319300590653]
ブラックボックス関数 $f:mathcalX mapto mathbbR$ は、$f$がよりスムーズで、与えられたカーネル $K$ に関連する RKHS の有界ノルムを持つという仮定の下で最適化される。
本稿では,H の局所多項式 (LP) 推定器を用いて通常の GP 代理モデルを拡張した新しいアルゴリズム (textttLP-GP-UCB) を提案する。
論文 参考訳(メタデータ) (2020-05-11T01:55:39Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。