論文の概要: A Sweet Rabbit Hole by DARCY: Using Honeypots to Detect Universal
Trigger's Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2011.10492v3
- Date: Thu, 6 May 2021 20:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:31:01.001462
- Title: A Sweet Rabbit Hole by DARCY: Using Honeypots to Detect Universal
Trigger's Adversarial Attacks
- Title(参考訳): ダーシーの甘いウサギの穴:ハニーポットを使ってユニバーサルトリガーの敵の攻撃を検出する
- Authors: Thai Le, Noseong Park, Dongwon Lee
- Abstract要約: 我々は、ユニトリガーに対するハニーポットベースの防御フレームワークであるDARCYを提案する。
DARCYは、NNモデルに複数のトラップドアをグレードして注入し、潜在的な攻撃を「ベイト・アンド・キャッチ」する。
DARCYは最大99%のTPRと2%未満のFPRでUniTriggerの対向攻撃を検出する。
- 参考スコア(独自算出の注目度): 25.244314785086218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Universal Trigger (UniTrigger) is a recently-proposed powerful
adversarial textual attack method. Utilizing a learning-based mechanism,
UniTrigger generates a fixed phrase that, when added to any benign inputs, can
drop the prediction accuracy of a textual neural network (NN) model to near
zero on a target class. To defend against this attack that can cause
significant harm, in this paper, we borrow the "honeypot" concept from the
cybersecurity community and propose DARCY, a honeypot-based defense framework
against UniTrigger. DARCY greedily searches and injects multiple trapdoors into
an NN model to "bait and catch" potential attacks. Through comprehensive
experiments across four public datasets, we show that DARCY detects
UniTrigger's adversarial attacks with up to 99% TPR and less than 2% FPR in
most cases, while maintaining the prediction accuracy (in F1) for clean inputs
within a 1% margin. We also demonstrate that DARCY with multiple trapdoors is
also robust to a diverse set of attack scenarios with attackers' varying levels
of knowledge and skills. Source code will be released upon the acceptance of
this paper.
- Abstract(参考訳): Universal Trigger (UniTrigger) は、最近提案された強力な敵対的テキスト攻撃手法である。
学習に基づくメカニズムを利用してunitriggerは、任意の良質な入力に追加されると、ターゲットクラスのテキストニューラルネットワーク(nn)モデルの予測精度をほぼゼロにする固定句を生成する。
そこで本稿では,サイバーセキュリティコミュニティから"honeypot"概念を借用し,unitriggerに対するハニーポットベースの防御フレームワークであるdarcyを提案する。
DARCYは、NNモデルに複数のトラップドアを大量に注入して、潜在的な攻撃を「ベイト・アンド・キャッチ」する。
4つの公開データセットにわたる総合的な実験により、DARCYは最大99%のTPRと2%未満のFPRでUniTriggerの敵攻撃を検出し、1%のマージンでクリーンな入力の予測精度(F1)を維持した。
また,複数のトラップドアを持つDARCYは,攻撃者の知識やスキルのレベルが異なる多様な攻撃シナリオに対して堅牢であることを示す。
この論文の受理によりソースコードが公開される。
関連論文リスト
- Distributed Backdoor Attacks on Federated Graph Learning and Certified Defenses [50.53476890313741]
我々は,FedGLに対する効果的な,ステルス的で永続的なバックドア攻撃を提案する。
我々は,任意の位置において任意の形状のトリガに対して,バックドアのFedGLモデルに対する認証された防御を開発する。
我々の攻撃結果は、ほぼ全てのデータセットで90%以上のバックドア精度が得られることを示している。
論文 参考訳(メタデータ) (2024-07-12T02:43:44Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Poisoning-based Backdoor Attacks for Arbitrary Target Label with Positive Triggers [8.15496105932744]
中毒ベースのバックドア攻撃は、ディープニューラルネットワーク(DNN)トレーニングのデータ準備段階における脆弱性を露呈する。
我々は,敵対的手法にインスパイアされた新たなトリガーの分類を開発し,Positive Triggers (PPT) を用いたマルチラベル・マルチペイロード型バックドアアタックを開発した。
汚いラベル設定とクリーンラベル設定の両方において、提案した攻撃が様々なデータセットの精度を犠牲にすることなく高い攻撃成功率を達成することを実証的に示す。
論文 参考訳(メタデータ) (2024-05-09T06:45:11Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Attacks with Input-unique Triggers in NLP [34.98477726215485]
Backdoor攻撃は、ニューラルネットワークを誘導して毒データに対する誤った予測を行い、クリーンなデータセットの予測を変更せずに維持することを目的としている。
本稿では,入力に固有のバックドアトリガを生成する,入出力型バックドアアタック(NURA)を提案する。
論文 参考訳(メタデータ) (2023-03-25T01:41:54Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z) - Imperceptible Backdoor Attack: From Input Space to Feature
Representation [24.82632240825927]
バックドア攻撃はディープニューラルネットワーク(DNN)への脅威が急速に高まっている
本稿では,既存の攻撃手法の欠点を分析し,新たな非受容的バックドア攻撃を提案する。
我々のトリガーは、良性画像の1%以下のピクセルしか変更せず、大きさは1。
論文 参考訳(メタデータ) (2022-05-06T13:02:26Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。