論文の概要: Near Optimal Adversarial Attack on UCB Bandits
- arxiv url: http://arxiv.org/abs/2008.09312v4
- Date: Thu, 25 May 2023 00:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-27 00:43:31.629751
- Title: Near Optimal Adversarial Attack on UCB Bandits
- Title(参考訳): UCB帯域における最適対外攻撃
- Authors: Shiliang Zuo
- Abstract要約: 報酬が敵の腐敗の対象となるマルチアームバンディット問題について検討する。
本稿では, UCBアルゴリズムを用いた学習者に対して, ラウンド数である$widehatO(sqrtlog T)$の累積コストで, 最適でないターゲットアームを$T - o(T)$倍に引き出すための新たな攻撃戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I study a stochastic multi-arm bandit problem where rewards are subject to
adversarial corruption. I propose a novel attack strategy that manipulates a
learner employing the UCB algorithm into pulling some non-optimal target arm $T
- o(T)$ times with a cumulative cost that scales as $\widehat{O}(\sqrt{\log
T})$, where $T$ is the number of rounds. I also prove the first lower bound on
the cumulative attack cost. The lower bound matches the upper bound up to
$O(\log \log T)$ factors, showing the proposed attack strategy to be near
optimal.
- Abstract(参考訳): 私は、報酬が敵対的腐敗の対象となる確率的多腕バンディット問題を研究する。
私は、ucbアルゴリズムを用いた学習者を操作する新しい攻撃戦略を提案する。ここでは、$t$がラウンド数である$\widehat{o}(\sqrt{\log t})$という累積コストで、非最適ターゲットarm $t - o(t)$を引く。
また、累積攻撃コストに対する最初の下限も証明します。
下限は$O(\log \log T)$ factorまでの上限値と一致し、提案した攻撃戦略がほぼ最適であることを示す。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Combinatorial Bandits under Strategic Manipulations [25.882801456026584]
報奨の戦略的操作下でのマルチアームバンディット(cmab)の問題点について検討し,各アームは自己の利益のために報奨信号を変更することができる。
私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。
論文 参考訳(メタデータ) (2021-02-25T07:57:27Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z) - Robust Stochastic Bandit Algorithms under Probabilistic Unbounded
Adversarial Attack [41.060507338755784]
本稿では,各ラウンドで敵が一定の確率で攻撃する攻撃モデルについて検討する。
そこで我々は, 中央値および探索支援UPBアルゴリズム(med-E-UCB)と中央値の$epsilon$-greedyアルゴリズム(med-$epsilon$-greedy)を提案する。
どちらのアルゴリズムも上記の攻撃モデルに対して確実に堅牢である。より具体的には、どちらのアルゴリズムも$mathcalO(log T)$ pseudo-regret (i.e.)を達成することを示す。
論文 参考訳(メタデータ) (2020-02-17T19:21:08Z) - Defensive Few-shot Learning [77.82113573388133]
本稿では,防御的数発学習という新たな課題について検討する。
敵の攻撃に対して頑丈な数発のモデルを学習することを目的としている。
提案したフレームワークは、既存の数発のモデルを敵攻撃に対して効果的に堅牢にすることができる。
論文 参考訳(メタデータ) (2019-11-16T05:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。