論文の概要: Probabilistic Sequential Shrinking: A Best Arm Identification Algorithm
for Stochastic Bandits with Corruptions
- arxiv url: http://arxiv.org/abs/2010.07904v4
- Date: Fri, 18 Jun 2021 10:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:37:56.594611
- Title: Probabilistic Sequential Shrinking: A Best Arm Identification Algorithm
for Stochastic Bandits with Corruptions
- Title(参考訳): 確率的シーケンスシンキング:破壊を伴う確率帯域のベストアーム同定アルゴリズム
- Authors: Zixin Zhong, Wang Chi Cheung, Vincent Y. F. Tan
- Abstract要約: 我々は,T段の固定予算設定において,敵対的腐敗を伴う連続的包帯に対する最適な腕識別(BAI)問題を考察した。
我々は, 汚職の量に依存しない新しいランダム化アルゴリズム, Probabilistic Shrinking($u$) (PSS($u$)) を設計する。
CPS が十分に大きいとき、BAI 確率を$Trightarrow infty$ として達成できるアルゴリズムは存在しない。
- 参考スコア(独自算出の注目度): 91.8283876874947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a best arm identification (BAI) problem for stochastic bandits
with adversarial corruptions in the fixed-budget setting of T steps. We design
a novel randomized algorithm, Probabilistic Sequential Shrinking($u$)
(PSS($u$)), which is agnostic to the amount of corruptions. When the amount of
corruptions per step (CPS) is below a threshold, PSS($u$) identifies the best
arm or item with probability tending to $1$ as $T\rightarrow \infty$.
Otherwise, the optimality gap of the identified item degrades gracefully with
the CPS.We argue that such a bifurcation is necessary. In PSS($u$), the
parameter $u$ serves to balance between the optimality gap and success
probability. The injection of randomization is shown to be essential to
mitigate the impact of corruptions. To demonstrate this, we design two attack
strategies that are applicable to any algorithm. We apply one of them to a
deterministic analogue of PSS($u$) known as Successive Halving (SH) by Karnin
et al. (2013). The attack strategy results in a high failure probability for
SH, but PSS($u$) remains robust. In the absence of corruptions, PSS($2$)'s
performance guarantee matches SH's. We show that when the CPS is sufficiently
large, no algorithm can achieve a BAI probability tending to $1$ as
$T\rightarrow \infty$. Numerical experiments corroborate our theoretical
findings.
- Abstract(参考訳): 我々は,T段の固定予算設定において,対向汚職を伴う確率的包帯に対するベストアーム識別(BAI)問題を考える。
我々は, 汚職の量に依存しない新しいランダム化アルゴリズム, Probabilistic Sequential Shrinking($u$) (PSS($u$)) を設計する。
ステップ当たりの汚職量(CPS)がしきい値を下回ると、PSS($u$)は、確率が$T\rightarrow \infty$として$$$$$となるような最高の腕またはアイテムを特定する。
さもなくば、特定された項目の最適性ギャップはcpsによって優雅に劣化する。
PSS($u$) では、パラメータ $u$ は最適性ギャップと成功確率のバランスをとる。
ランダム化の注入は、腐敗の影響を軽減するために不可欠であることが示されている。
これを証明するために,任意のアルゴリズムに適用可能な攻撃戦略を2つ設計する。
これらのうちの1つをカルニンらによる逐次ハルヴィング(SH)として知られるPSS($u$)の決定論的類似体に適用する(2013)。
攻撃戦略はSHの失敗確率が高いが、PSS($u$)は引き続き堅牢である。
汚職がない場合、PSS($2$)のパフォーマンス保証はSHと一致する。
CPS が十分に大きいとき、BAI の確率が$T\rightarrow \infty$ となるようなアルゴリズムは存在しない。
数値実験は理論的な結果を裏付けるものだ。
関連論文リスト
- Stochastic Bandits Robust to Adversarial Attacks [33.278131584647745]
本稿では,敵攻撃に対して頑健なマルチアームバンディットアルゴリズムについて検討する。
我々は、攻撃予算の知識の有無に関わらず、このモデルの2つのケースを調査する。
我々は、加法的あるいは乗法的な$C$依存項を持つ後悔境界を持つ2種類のアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-08-16T17:41:35Z) - Replicability is Asymptotically Free in Multi-armed Bandits [45.729105054410745]
この仕事の動機は、再現可能な機械学習の需要の増加にある。
特に、高い確率で、アルゴリズムのアクション列がデータセットに固有のランダム性の影響を受けないように、複製可能なアルゴリズムを考える。
論文 参考訳(メタデータ) (2024-02-12T03:31:34Z) - Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。
本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。
我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文 参考訳(メタデータ) (2023-05-29T18:16:59Z) - Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial
Corruptions [98.75618795470524]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
我々は不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:58:58Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。