論文の概要: Adversarial Attacks on Linear Contextual Bandits
- arxiv url: http://arxiv.org/abs/2002.03839v3
- Date: Fri, 23 Oct 2020 08:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:50:30.245949
- Title: Adversarial Attacks on Linear Contextual Bandits
- Title(参考訳): 線形文脈帯域に対する逆攻撃
- Authors: Evrard Garcelon, Baptiste Roziere, Laurent Meunier, Jean Tarbouriech,
Olivier Teytaud, Alessandro Lazaric, Matteo Pirotta
- Abstract要約: 悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
- 参考スコア(独自算出の注目度): 87.08004581867537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit algorithms are applied in a wide range of domains, from
advertising to recommender systems, from clinical trials to education. In many
of these domains, malicious agents may have incentives to attack the bandit
algorithm to induce it to perform a desired behavior. For instance, an
unscrupulous ad publisher may try to increase their own revenue at the expense
of the advertisers; a seller may want to increase the exposure of their
products, or thwart a competitor's advertising campaign. In this paper, we
study several attack scenarios and show that a malicious agent can force a
linear contextual bandit algorithm to pull any desired arm $T - o(T)$ times
over a horizon of $T$ steps, while applying adversarial modifications to either
rewards or contexts that only grow logarithmically as $O(\log T)$. We also
investigate the case when a malicious agent is interested in affecting the
behavior of the bandit algorithm in a single context (e.g., a specific user).
We first provide sufficient conditions for the feasibility of the attack and we
then propose an efficient algorithm to perform the attack. We validate our
theoretical results on experiments performed on both synthetic and real-world
datasets.
- Abstract(参考訳): コンテキストバンディットアルゴリズムは、広告からレコメンデーターシステム、臨床試験から教育まで幅広い分野に適用されている。
これらのドメインの多くでは、悪質なエージェントがbanditアルゴリズムを攻撃して、望ましい振る舞いをするよう誘導するインセンティブを持つ可能性がある。
例えば、不愉快な広告出版社は広告主を犠牲にして利益を上げようとするかもしれないし、売り手は商品の露出を増やそうとするかもしれないし、ライバルの広告キャンペーンを妨害するかもしれない。
本稿では,いくつかの攻撃シナリオを調査し,悪意のあるエージェントが,任意の所望のarm $t - o(t)$ を$t$ ステップの水平線上で引き出すようにリニアコンテクストバンディットアルゴリズムを強制することができること,また,対数的に$o(\log t)$ でしか成長しない報奨や文脈に対して,逆修正を適用すること,等を示す。
また,悪意のあるエージェントが単一コンテキスト(例えば,特定のユーザ)におけるバンディットアルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
まず,攻撃実現のために十分な条件を提示し,攻撃を行うための効率的なアルゴリズムを提案する。
合成データと実世界データの両方で行った実験で理論的結果を検証する。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Adversarial Attacks on Adversarial Bandits [10.891819703383408]
攻撃者は,任意の非相対的帯域幅アルゴリズムをミスリードして,準最適目標アームを選択することができることを示す。
この結果は、現実世界の盗賊ベースのシステムにおける重要なセキュリティ上の懸念を意味する。
論文 参考訳(メタデータ) (2023-01-30T00:51:39Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Efficient Action Poisoning Attacks on Linear Contextual Bandits [41.1063033715314]
我々は新たな種類の攻撃を提案している。
相手は、エージェントが選択したアクション信号を変更することができる。
ホワイトボックスとブラックボックスの設定の両方において、提案した攻撃スキームはLinUCBエージェントにターゲットアームを非常に頻繁に引くように強制することができることを示す。
論文 参考訳(メタデータ) (2021-12-10T07:39:07Z) - When Are Linear Stochastic Bandits Attackable? [47.25702824488642]
本稿では,$k$のリニアバンディット環境の攻撃性について検討する。
本稿では,LinUCBとロバスト位相除去に対する2段階攻撃法を提案する。
論文 参考訳(メタデータ) (2021-10-18T04:12:09Z) - Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks [81.13338949407205]
近年の研究では、最適なバンディットアルゴリズムは敵攻撃に対して脆弱であり、攻撃の有無で完全に失敗する可能性があることが示されている。
既存の堅牢なバンディットアルゴリズムは、報酬の攻撃下では、非コンテキスト設定でのみ機能する。
完全適応的かつ全能的な攻撃下での線形文脈帯域設定のための最初の頑健な帯域幅アルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-05T22:20:34Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Action-Manipulation Attacks Against Stochastic Bandits: Attacks and
Defense [45.408568528354216]
我々はアクション・マニピュレーション・アタックと呼ばれる新しいタイプの攻撃を導入する。
この攻撃では、相手が選択したアクション信号を変更することができる。
このような攻撃に対して防御するために,アクション操作攻撃に対して堅牢な新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-02-19T04:09:15Z) - Robust Stochastic Bandit Algorithms under Probabilistic Unbounded
Adversarial Attack [41.060507338755784]
本稿では,各ラウンドで敵が一定の確率で攻撃する攻撃モデルについて検討する。
そこで我々は, 中央値および探索支援UPBアルゴリズム(med-E-UCB)と中央値の$epsilon$-greedyアルゴリズム(med-$epsilon$-greedy)を提案する。
どちらのアルゴリズムも上記の攻撃モデルに対して確実に堅牢である。より具体的には、どちらのアルゴリズムも$mathcalO(log T)$ pseudo-regret (i.e.)を達成することを示す。
論文 参考訳(メタデータ) (2020-02-17T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。