論文の概要: Bypassing DARCY Defense: Indistinguishable Universal Adversarial Triggers
- arxiv url: http://arxiv.org/abs/2409.03183v1
- Date: Thu, 5 Sep 2024 02:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 22:18:11.360319
- Title: Bypassing DARCY Defense: Indistinguishable Universal Adversarial Triggers
- Title(参考訳): DARCY防衛をバイパスする: 区別がつかないユニバーサル・ディバイサル・トリガー
- Authors: Zuquan Peng, Yuanyuan He, Jianbing Ni, Ben Niu,
- Abstract要約: IndisUATと呼ばれる新しいUAT生成手法が、敵の例を作るのにどのように使えるかを示す。
生成した逆数例は、DARCY保護モデルにおける予測結果の最大損失をもたらす。
IndesUAT は DARCY の検出の正の確率を少なくとも 40.8% と 90.6% に下げ、それぞれ RNN と CNN のモデルで 33.3% と 51.6% の精度を下げることができる。
- 参考スコア(独自算出の注目度): 11.64617586381446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks (NN) classification models for Natural Language Processing (NLP) are vulnerable to the Universal Adversarial Triggers (UAT) attack that triggers a model to produce a specific prediction for any input. DARCY borrows the "honeypot" concept to bait multiple trapdoors, effectively detecting the adversarial examples generated by UAT. Unfortunately, we find a new UAT generation method, called IndisUAT, which produces triggers (i.e., tokens) and uses them to craft adversarial examples whose feature distribution is indistinguishable from that of the benign examples in a randomly-chosen category at the detection layer of DARCY. The produced adversarial examples incur the maximal loss of predicting results in the DARCY-protected models. Meanwhile, the produced triggers are effective in black-box models for text generation, text inference, and reading comprehension. Finally, the evaluation results under NN models for NLP tasks indicate that the IndisUAT method can effectively circumvent DARCY and penetrate other defenses. For example, IndisUAT can reduce the true positive rate of DARCY's detection by at least 40.8% and 90.6%, and drop the accuracy by at least 33.3% and 51.6% in the RNN and CNN models, respectively. IndisUAT reduces the accuracy of the BERT's adversarial defense model by at least 34.0%, and makes the GPT-2 language model spew racist outputs even when conditioned on non-racial context.
- Abstract(参考訳): 自然言語処理(NLP)のためのニューラルネットワーク(NN)分類モデルは、任意の入力に対して特定の予測を生成するためにモデルをトリガーするUniversal Adversarial Triggers(UAT)攻撃に対して脆弱である。
DARCYは"Honeypot"の概念を借りて複数のトラップドアを餌にし、UATが生み出す敵の例を効果的に検出する。
残念なことに、新しいUAT生成手法であるIndisUATはトリガ(トークン)を生成し、DARCYの検知層におけるランダムな長調カテゴリの良質な例と特徴分布が区別できない敵の例を作成する。
生成した逆数例は、DARCY保護モデルにおける予測結果の最大損失をもたらす。
一方、生成したトリガは、テキスト生成、テキスト推論、読解のためのブラックボックスモデルに有効である。
最後に、NLPタスクに対するNNモデルによる評価結果から、IndisUAT法はDARCYを効果的に回避し、他の防御を浸透させることができることを示す。
例えば、IndisUAT は DARCY の検出の正の確率を少なくとも 40.8% と 90.6% に下げ、それぞれ RNN と CNN のモデルで 33.3% と 51.6% の精度を下げることができる。
IndisUATはBERTの対角防御モデルの精度を少なくとも34.0%削減し、GPT-2言語モデルは非人種差別的文脈で条件付きであっても人種差別的出力を吐き出す。
関連論文リスト
- DMGNN: Detecting and Mitigating Backdoor Attacks in Graph Neural Networks [30.766013737094532]
我々は,DMGNNを,アウト・オブ・ディストリビューション(OOD)およびイン・ディストリビューション(ID)グラフバックドア攻撃に対して提案する。
DMGNNは、偽説明に基づいてラベル遷移を予測することによって、隠されたIDとOODトリガを容易に識別できる。
DMGNNは最新技術(SOTA)防衛法をはるかに上回り、モデル性能のほとんど無視できる劣化を伴って攻撃成功率を5%に低下させる。
論文 参考訳(メタデータ) (2024-10-18T01:08:03Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Is It Possible to Backdoor Face Forgery Detection with Natural Triggers? [20.54640502001717]
顔偽造検出モデルに対する新たな分析・合成バックドアアタックを提案する。
本手法は高い攻撃成功率(99%以上)を達成し,低毒性率(3%未満)のモデル精度低下(0.2%以下)を生じさせる。
論文 参考訳(メタデータ) (2023-12-31T07:16:10Z) - Disparity, Inequality, and Accuracy Tradeoffs in Graph Neural Networks
for Node Classification [2.8282906214258796]
グラフニューラルネットワーク(GNN)は、属性付きグラフのノードラベルを予測するための重要な人間のアプリケーションで、ますます使われている。
保護されたグループと保護されていないグループのノード間の分離性を減少させるPFR-AXと、ブラックボックスポリシーに基づいたモデル予測を更新するPostProcessという2つの新しいGNN非依存的介入を提案する。
PFR-AXとPostProcessは,保護群におけるノードの正の結果を正確に予測した場合に,粒度制御とモデル信頼度の向上を図っている。
論文 参考訳(メタデータ) (2023-08-18T14:45:28Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Dynamic Transformers Provide a False Sense of Efficiency [75.39702559746533]
マルチエグジットモデルは、計算の節約を早期出口から得るため、効率と精度をトレードオフする。
本稿では,マルチエグジットモデルの効率を抑えるために特別に最適化された,シンプルで効果的なアタック・フレームワークであるITAを提案する。
GLUEベンチマークの実験により、Pameは様々なマルチエクイットモデルの効率向上を平均80%削減できることが示された。
論文 参考訳(メタデータ) (2023-05-20T16:41:48Z) - Enhanced countering adversarial attacks via input denoising and feature
restoring [15.787838084050957]
ディープニューラルネットワーク(DNN)は、クリーン/オリジンサンプルにおいて知覚できない摂動を伴う敵の例/サンプル(AE)に対して脆弱である。
本稿では,IDFR(Input Denoising and Feature Restoring)による対向攻撃手法の強化について述べる。
提案したIDFRは, 凸船体最適化に基づく拡張型インプットデノイザ (ID) と隠れ型ロスィ特徴復元器 (FR) から構成される。
論文 参考訳(メタデータ) (2021-11-19T07:34:09Z) - MINIMAL: Mining Models for Data Free Universal Adversarial Triggers [57.14359126600029]
我々は、NLPモデルから入力非依存の逆のトリガーをマイニングするための、新しいデータフリーアプローチ、MINIMALを提案する。
我々はスタンフォード・センティメント・ツリーバンクの正のクラスを93.6%から9.6%に減らした。
SNLI(Stanford Natural Language Inference)では、このシングルワードトリガーによって、エンターメントクラスの精度が90.95%から0.6%未満に低下する。
論文 参考訳(メタデータ) (2021-09-25T17:24:48Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z) - Cooling-Shrinking Attack: Blinding the Tracker with Imperceptible Noises [87.53808756910452]
The method is proposed to deceive-of-the-the-art SiameseRPN-based tracker。
本手法は転送性に優れ,DaSiamRPN,DaSiamRPN-UpdateNet,DiMPなどの他のトップパフォーマンストラッカーを騙すことができる。
論文 参考訳(メタデータ) (2020-03-21T07:13:40Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。