論文の概要: A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits
- arxiv url: http://arxiv.org/abs/2202.01850v1
- Date: Thu, 3 Feb 2022 21:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 14:07:53.124349
- Title: A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits
- Title(参考訳): 汚損耐性ガウス過程バンドに対するロバスト位相除去アルゴリズム
- Authors: Ilija Bogunovic, Zihan Li, Andreas Krause, Jonathan Scarlett
- Abstract要約: そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
- 参考スコア(独自算出の注目度): 118.22458816174144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the sequential optimization of an unknown, continuous, and
expensive to evaluate reward function, from noisy and adversarially corrupted
observed rewards. When the corruption attacks are subject to a suitable budget
$C$ and the function lives in a Reproducing Kernel Hilbert Space (RKHS), the
problem can be posed as corrupted Gaussian process (GP) bandit optimization. We
propose a novel robust elimination-type algorithm that runs in epochs, combines
exploration with infrequent switching to select a small subset of actions, and
plays each action for multiple time instants. Our algorithm, Robust GP Phased
Elimination (RGP-PE), successfully balances robustness to corruptions with
exploration and exploitation such that its performance degrades minimally in
the presence (or absence) of adversarial corruptions. When $T$ is the number of
samples and $\gamma_T$ is the maximal information gain, the
corruption-dependent term in our regret bound is $O(C \gamma_T^{3/2})$, which
is significantly tighter than the existing $O(C \sqrt{T \gamma_T})$ for several
commonly-considered kernels. We perform the first empirical study of robustness
in the corrupted GP bandit setting, and show that our algorithm is robust
against a variety of adversarial attacks.
- Abstract(参考訳): 雑音や逆向きに破損した観測報酬から、報酬関数を評価するために、未知、連続、費用の連続的な最適化を検討する。
汚職攻撃が適切な予算$C$で、その関数が再生ケルネルヒルベルト空間(RKHS)に存在する場合、その問題はガウス過程(GP)帯域最適化として表される。
本研究では,エポックで動作し,頻繁なスイッチングと組み合わせて少数のアクションを選択し,各アクションを複数のタイミングで再生する,新しいロバストな除去型アルゴリズムを提案する。
我々のアルゴリズムであるRobust GP Phased Elimination (RGP-PE) は、敵の汚職の存在(または欠如)においてその性能が最小限に低下するように、探索と悪用によって汚職に対する堅牢性をバランスさせることに成功した。
T$ がサンプル数であり、$\gamma_T$ が最大情報ゲインであるとき、我々の後悔境界における汚職依存項は $O(C \gamma_T^{3/2})$ であり、これはいくつかの一般的なカーネルに対して既存の $O(C \sqrt{T \gamma_T})$ よりもかなり厳密である。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
関連論文リスト
- Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial
Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:58:58Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - On Optimal Robustness to Adversarial Corruption in Online Decision
Problems [27.68461396741871]
最適ロバスト性は汚損量に対する平方根依存性によって表現できることを示す。
多武装バンディット問題に対しては、対数係数までほぼ狭い下界も提供する。
論文 参考訳(メタデータ) (2021-09-22T18:26:45Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - Corruption-Tolerant Gaussian Process Bandit Optimization [130.60115798580136]
未知(典型的には非生成)関数を有界ノルムで最適化する問題を考察する。
我々は「高速だが非ローバスト」と「スロー」に基づく高速スローGP-UCBに基づくアルゴリズムを提案する。
ある種の依存関係は、汚職レベルによっては要求できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-03-04T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。