Fugu-MT 論文翻訳(概要): Near Optimal Adversarial Attack on UCB Bandits

論文の概要: Near Optimal Adversarial Attack on UCB Bandits

arxiv url: http://arxiv.org/abs/2008.09312v4
Date: Thu, 25 May 2023 00:20:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-27 00:43:31.629751
Title: Near Optimal Adversarial Attack on UCB Bandits
Title（参考訳）: UCB帯域における最適対外攻撃
Authors: Shiliang Zuo
Abstract要約: 報酬が敵の腐敗の対象となるマルチアームバンディット問題について検討する。本稿では, UCBアルゴリズムを用いた学習者に対して, ラウンド数である$widehatO(sqrtlog T)$の累積コストで, 最適でないターゲットアームを$T - o(T)$倍に引き出すための新たな攻撃戦略を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: I study a stochastic multi-arm bandit problem where rewards are subject to adversarial corruption. I propose a novel attack strategy that manipulates a learner employing the UCB algorithm into pulling some non-optimal target arm $T - o(T)$ times with a cumulative cost that scales as $\widehat{O}(\sqrt{\log T})$, where $T$ is the number of rounds. I also prove the first lower bound on the cumulative attack cost. The lower bound matches the upper bound up to $O(\log \log T)$ factors, showing the proposed attack strategy to be near optimal.
Abstract（参考訳）: 私は、報酬が敵対的腐敗の対象となる確率的多腕バンディット問題を研究する。私は、ucbアルゴリズムを用いた学習者を操作する新しい攻撃戦略を提案する。ここでは、$t$がラウンド数である$\widehat{o}(\sqrt{\log t})$という累積コストで、非最適ターゲットarm $t - o(t)$を引く。また、累積攻撃コストに対する最初の下限も証明します。下限は$O(\log \log T)$ factorまでの上限値と一致し、提案した攻撃戦略がほぼ最適であることを示す。

関連論文リスト

Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Bandits Meet Mechanism Design to Combat Clickbait in Online Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文参考訳（メタデータ） (2023-11-27T09:19:01Z)
Robust Lipschitz Bandits to Adversarial Corruptions [61.85150061213987]
リプシッツ・バンディット(英: Lipschitz bandit)は、計量空間上で定義された連続アーム集合を扱うバンディットの変種である。本稿では,敵対的腐敗の存在下でのリプシッツ・バンディットの新たな問題を紹介する。我々の研究は、両タイプの敵の下でサブ線形後悔を達成できるロバストなリプシッツ・バンディットアルゴリズムの最初のラインを提示する。
論文参考訳（メタデータ） (2023-05-29T18:16:59Z)
Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文参考訳（メタデータ） (2022-12-15T17:44:31Z)
Online Learning in Budget-Constrained Dynamic Colonel Blotto Games [2.132096006921048]
ブロット大佐ゲーム (CBG) を用いて, 動的環境下での限られた資源の戦略的割り当てについて検討する。我々は,経路計画問題に対する特別な帯域幅アルゴリズムと,予算制約に対処するknapsackアルゴリズムを組み合わせた効率的なアルゴリズムを考案した。
論文参考訳（メタデータ） (2021-03-23T20:52:56Z)
Combinatorial Bandits under Strategic Manipulations [25.882801456026584]
報奨の戦略的操作下でのマルチアームバンディット(cmab)の問題点について検討し,各アームは自己の利益のために報奨信号を変更することができる。私たちの設定は、敵対的な腐敗や敵対的な攻撃と比較してリラックスした仮定を課す適応アームのより現実的なモデルを洗練します。
論文参考訳（メタデータ） (2021-02-25T07:57:27Z)
Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。 CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文参考訳（メタデータ） (2020-12-10T03:21:16Z)
Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文参考訳（メタデータ） (2020-07-10T09:33:05Z)
Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-20T06:36:19Z)
Robust Stochastic Bandit Algorithms under Probabilistic Unbounded Adversarial Attack [41.060507338755784]
本稿では,各ラウンドで敵が一定の確率で攻撃する攻撃モデルについて検討する。そこで我々は, 中央値および探索支援UPBアルゴリズム(med-E-UCB)と中央値の$epsilon$-greedyアルゴリズム(med-$epsilon$-greedy)を提案する。どちらのアルゴリズムも上記の攻撃モデルに対して確実に堅牢である。より具体的には、どちらのアルゴリズムも$mathcalO(log T)$ pseudo-regret (i.e.)を達成することを示す。
論文参考訳（メタデータ） (2020-02-17T19:21:08Z)
Defensive Few-shot Learning [77.82113573388133]
本稿では,防御的数発学習という新たな課題について検討する。敵の攻撃に対して頑丈な数発のモデルを学習することを目的としている。提案したフレームワークは、既存の数発のモデルを敵攻撃に対して効果的に堅牢にすることができる。
論文参考訳（メタデータ） (2019-11-16T05:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。