論文の概要: Near Optimal Adversarial Attack on UCB Bandits
- arxiv url: http://arxiv.org/abs/2008.09312v2
- Date: Tue, 16 Aug 2022 04:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:00:50.675748
- Title: Near Optimal Adversarial Attack on UCB Bandits
- Title(参考訳): UCB帯域における最適対外攻撃
- Authors: Shiliang Zuo
- Abstract要約: 我々は、報酬が敵の腐敗の対象となるマルチアームバンディット問題を考える。
本稿では,UCBの原理を巧みに操り,最適なターゲットアームである$T - o(T)$倍を累積で$sqrtlog T$,$T$をラウンド数とする新たな攻撃戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a stochastic multi-arm bandit problem where rewards are subject
to adversarial corruption. We propose a novel attack strategy that manipulates
a UCB principle into pulling some non-optimal target arm $T - o(T)$ times with
a cumulative cost that scales as $\sqrt{\log T}$, where $T$ is the number of
rounds. We also prove the first lower bound on the cumulative attack cost. Our
lower bound matches our upper bound up to $\log \log T$ factors, showing our
attack to be near optimal.
- Abstract(参考訳): 我々は,報酬が敵対的腐敗を受ける確率的多腕バンディット問題を考える。
本稿では、UCBの原理を巧みに操り、累積コストを$\sqrt{\log T}$とすると、$T$がラウンド数であるような累積コストで、最適でないターゲットアームを$T - o(T)$倍に引く新たな攻撃戦略を提案する。
また、累積攻撃コストに対する最初の下限も証明する。
我々の下限は最大$\log \log t$ 要素の上限に一致し、攻撃が最適に近いことを示している。
関連論文リスト
- Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Sample Complexity of an Adversarial Attack on UCB-based Best-arm
Identification Policy [0.0]
マルチアームバンディット(MAB)において,報酬に対する敵対的摂動の問題について検討する。
I focus on a adversarial attack to a UCB type best-arm identification policy applied to a MAB。
論文 参考訳(メタデータ) (2022-09-13T02:31:30Z) - Online Learning in Budget-Constrained Dynamic Colonel Blotto Games [2.132096006921048]
ブロット大佐ゲーム (CBG) を用いて, 動的環境下での限られた資源の戦略的割り当てについて検討する。
我々は,経路計画問題に対する特別な帯域幅アルゴリズムと,予算制約に対処するknapsackアルゴリズムを組み合わせた効率的なアルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-03-23T20:52:56Z) - Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。
我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文 参考訳(メタデータ) (2021-03-03T23:08:59Z) - Combinatorial Bandits under Strategic Manipulations [25.882801456026584]
報奨の戦略的操作下でのマルチアームバンディット(cmab)の問題点について検討し,各アームは自己の利益のために報奨信号を変更することができる。
私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。
論文 参考訳(メタデータ) (2021-02-25T07:57:27Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。