論文の概要: Near Optimal Adversarial Attacks on Stochastic Bandits and Defenses with Smoothed Responses
- arxiv url: http://arxiv.org/abs/2008.09312v8
- Date: Thu, 14 Mar 2024 21:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 08:10:52.920093
- Title: Near Optimal Adversarial Attacks on Stochastic Bandits and Defenses with Smoothed Responses
- Title(参考訳): 確率帯域に対する最適対向攻撃とスムース応答による防御
- Authors: Shiliang Zuo,
- Abstract要約: 本論文では2つの結果について述べる。
私はUCBとThompson Samplingに対する攻撃戦略を設計し、$widehatO(sqrtlog T)$コストしか使っていません。
スムーズな分析と行動経済学に関する文献に触発されて、私は2つの単純なアルゴリズムを示し、任意の比を1に近く達成する。
- 参考スコア(独自算出の注目度): 2.296475290901356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I study adversarial attacks against stochastic bandit algorithms. At each round, the learner chooses an arm, and a stochastic reward is generated. The adversary strategically adds corruption to the reward, and the learner is only able to observe the corrupted reward at each round. Two sets of results are presented in this paper. The first set studies the optimal attack strategies for the adversary. The adversary has a target arm he wishes to promote, and his goal is to manipulate the learner into choosing this target arm $T - o(T)$ times. I design attack strategies against UCB and Thompson Sampling that only spend $\widehat{O}(\sqrt{\log T})$ cost. Matching lower bounds are presented, and the vulnerability of UCB, Thompson sampling, and $\varepsilon$-greedy are exactly characterized. The second set studies how the learner can defend against the adversary. Inspired by literature on smoothed analysis and behavioral economics, I present two simple algorithms that achieve a competitive ratio arbitrarily close to 1.
- Abstract(参考訳): 確率的バンディットアルゴリズムに対する敵対的攻撃について研究する。
各ラウンドで、学習者は腕を選択し、確率的な報酬を生成する。
敵は戦略的に報酬に汚職を加え、学習者は各ラウンドで腐敗した報酬を観察することができる。
本論文では2つの結果について述べる。
第1セットは、敵に対する最適な攻撃戦略を研究する。
敵は、彼が宣伝したいターゲットアームを持ち、彼のゴールは、学習者を操り、このターゲットアームを$T - o(T)$ timesを選択することである。
私はUCBとThompson Samplingに対する攻撃戦略を設計し、$\widehat{O}(\sqrt{\log T})$コストしか使いません。
一致した下界を示し、UPB、トンプソンサンプリング、および$\varepsilon$-greedyの脆弱性を正確に特徴づける。
第2セットは、学習者が敵に対してどのように防御できるかを研究する。
スムーズな分析と行動経済学に関する文献に触発されて、私は2つの単純なアルゴリズムを示し、任意の比を1に近く達成する。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Combinatorial Bandits under Strategic Manipulations [25.882801456026584]
報奨の戦略的操作下でのマルチアームバンディット(cmab)の問題点について検討し,各アームは自己の利益のために報奨信号を変更することができる。
私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。
論文 参考訳(メタデータ) (2021-02-25T07:57:27Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z) - Robust Stochastic Bandit Algorithms under Probabilistic Unbounded
Adversarial Attack [41.060507338755784]
本稿では,各ラウンドで敵が一定の確率で攻撃する攻撃モデルについて検討する。
そこで我々は, 中央値および探索支援UPBアルゴリズム(med-E-UCB)と中央値の$epsilon$-greedyアルゴリズム(med-$epsilon$-greedy)を提案する。
どちらのアルゴリズムも上記の攻撃モデルに対して確実に堅牢である。より具体的には、どちらのアルゴリズムも$mathcalO(log T)$ pseudo-regret (i.e.)を達成することを示す。
論文 参考訳(メタデータ) (2020-02-17T19:21:08Z) - Defensive Few-shot Learning [77.82113573388133]
本稿では,防御的数発学習という新たな課題について検討する。
敵の攻撃に対して頑丈な数発のモデルを学習することを目的としている。
提案したフレームワークは、既存の数発のモデルを敵攻撃に対して効果的に堅牢にすることができる。
論文 参考訳(メタデータ) (2019-11-16T05:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。