論文の概要: Robust Stochastic Bandit Algorithms under Probabilistic Unbounded
Adversarial Attack
- arxiv url: http://arxiv.org/abs/2002.07214v1
- Date: Mon, 17 Feb 2020 19:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:35:28.998410
- Title: Robust Stochastic Bandit Algorithms under Probabilistic Unbounded
Adversarial Attack
- Title(参考訳): 確率的非有界逆攻撃下におけるロバスト確率帯域幅アルゴリズム
- Authors: Ziwei Guan, Kaiyi Ji, Donald J Bucci Jr, Timothy Y Hu, Joseph Palombo,
Michael Liston, Yingbin Liang
- Abstract要約: 本稿では,各ラウンドで敵が一定の確率で攻撃する攻撃モデルについて検討する。
そこで我々は, 中央値および探索支援UPBアルゴリズム(med-E-UCB)と中央値の$epsilon$-greedyアルゴリズム(med-$epsilon$-greedy)を提案する。
どちらのアルゴリズムも上記の攻撃モデルに対して確実に堅牢である。より具体的には、どちらのアルゴリズムも$mathcalO(log T)$ pseudo-regret (i.e.)を達成することを示す。
- 参考スコア(独自算出の注目度): 41.060507338755784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-armed bandit formalism has been extensively studied under various
attack models, in which an adversary can modify the reward revealed to the
player. Previous studies focused on scenarios where the attack value either is
bounded at each round or has a vanishing probability of occurrence. These
models do not capture powerful adversaries that can catastrophically perturb
the revealed reward. This paper investigates the attack model where an
adversary attacks with a certain probability at each round, and its attack
value can be arbitrary and unbounded if it attacks. Furthermore, the attack
value does not necessarily follow a statistical distribution. We propose a
novel sample median-based and exploration-aided UCB algorithm (called
med-E-UCB) and a median-based $\epsilon$-greedy algorithm (called
med-$\epsilon$-greedy). Both of these algorithms are provably robust to the
aforementioned attack model. More specifically we show that both algorithms
achieve $\mathcal{O}(\log T)$ pseudo-regret (i.e., the optimal regret without
attacks). We also provide a high probability guarantee of $\mathcal{O}(\log T)$
regret with respect to random rewards and random occurrence of attacks. These
bounds are achieved under arbitrary and unbounded reward perturbation as long
as the attack probability does not exceed a certain constant threshold. We
provide multiple synthetic simulations of the proposed algorithms to verify
these claims and showcase the inability of existing techniques to achieve
sublinear regret. We also provide experimental results of the algorithm
operating in a cognitive radio setting using multiple software-defined radios.
- Abstract(参考訳): マルチアームのバンディット形式主義は様々な攻撃モデルの下で広範囲に研究され、敵がプレイヤーに示される報酬を修正できる。
以前の研究では、攻撃値が各ラウンドで境界付けられたり、発生確率が消失するシナリオに焦点を当てていた。
これらのモデルは、明らかな報酬を壊滅的に乱すような強力な敵を捉えない。
本稿では,各ラウンドにおいて一定の確率で攻撃を行い,攻撃時にその攻撃値を任意かつ無制限にすることができる攻撃モデルについて検討する。
さらに、攻撃値は必ずしも統計分布に従わない。
med-e-ucbと呼ばれる新しいサンプル中央値および探索支援ucbアルゴリズムと、中央値に基づく$\epsilon$-greedyアルゴリズム(med-$\epsilon$-greedy)を提案する。
これらのアルゴリズムは、上記の攻撃モデルに対して確実に堅牢である。
より具体的には、どちらのアルゴリズムも$\mathcal{o}(\log t)$ pseudo-regret(攻撃なしの最適後悔)を達成することを示している。
また、ランダムな報酬とランダムな攻撃の発生に関して、$\mathcal{O}(\log T)$ regretの高い確率保証を提供する。
これらの境界は、攻撃確率が一定の一定しきい値を超えない限り、任意かつ非有界な報酬摂動の下で達成される。
本稿では,提案アルゴリズムの複数の合成シミュレーションを行い,これらの主張を検証し,既存の手法が不備であることを示す。
また,複数のソフトウェア定義無線を用いてコグニティブ無線環境で動作するアルゴリズムの実験結果を提供する。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Replicability is Asymptotically Free in Multi-armed Bandits [45.729105054410745]
この仕事の動機は、再現可能な機械学習の需要の増加にある。
特に、高い確率で、アルゴリズムのアクション列がデータセットに固有のランダム性の影響を受けないように、複製可能なアルゴリズムを考える。
論文 参考訳(メタデータ) (2024-02-12T03:31:34Z) - Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Adversarial Attacks on Gaussian Process Bandits [47.84198626686564]
本研究では,攻撃者の強さや事前情報に異なる仮定で様々な敵攻撃手法を提案する。
我々の目標は,GPバンディットに対する敵攻撃を理論的・実践的両面から理解することである。
GP帯域に対する敵攻撃は,攻撃予算が低い場合でも,$mathcalR_rmターゲットに対してアルゴリズムを強制的に強制することに成功した。
論文 参考訳(メタデータ) (2021-10-16T02:39:10Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - Action-Manipulation Attacks Against Stochastic Bandits: Attacks and
Defense [45.408568528354216]
我々はアクション・マニピュレーション・アタックと呼ばれる新しいタイプの攻撃を導入する。
この攻撃では、相手が選択したアクション信号を変更することができる。
このような攻撃に対して防御するために,アクション操作攻撃に対して堅牢な新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-02-19T04:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。