論文の概要: DiffuseDef: Improved Robustness to Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2407.00248v1
- Date: Fri, 28 Jun 2024 22:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 05:50:47.932080
- Title: DiffuseDef: Improved Robustness to Adversarial Attacks
- Title(参考訳): DiffuseDef: 敵攻撃に対するロバスト性の改善
- Authors: Zhenhao Li, Marek Rei, Lucia Specia,
- Abstract要約: 敵の攻撃は、事前訓練された言語モデルを使って構築されたシステムにとって重要な課題となる。
本稿では,拡散層をエンコーダと分類器のデノイザとして組み込んだDiffuseDefを提案する。
推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
- 参考スコア(独自算出の注目度): 38.34642687239535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models have significantly advanced performance across various natural language processing tasks. However, adversarial attacks continue to pose a critical challenge to system built using these models, as they can be exploited with carefully crafted adversarial texts. Inspired by the ability of diffusion models to predict and reduce noise in computer vision, we propose a novel and flexible adversarial defense method for language classification tasks, DiffuseDef, which incorporates a diffusion layer as a denoiser between the encoder and the classifier. During inference, the adversarial hidden state is first combined with sampled noise, then denoised iteratively and finally ensembled to produce a robust text representation. By integrating adversarial training, denoising, and ensembling techniques, we show that DiffuseDef improves over different existing adversarial defense methods and achieves state-of-the-art performance against common adversarial attacks.
- Abstract(参考訳): 事前訓練された言語モデルは、様々な自然言語処理タスクで大幅に性能が向上する。
しかし、敵攻撃はこれらのモデルを用いて構築されたシステムにとって重要な課題であり続けており、慎重に構築された敵のテキストで悪用することができる。
コンピュータビジョンの雑音を予測・低減する拡散モデルの能力に触発されて, 拡散層をエンコーダと分類器の識別器として組み込んだ, 言語分類タスクのための, フレキシブルな対逆防御手法DiffuseDefを提案する。
推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
DiffuseDefは, 対人訓練, デノベーション, アンサンブル技術を統合することで, 既存の対人防御法を改良し, 対人攻撃に対する最先端のパフォーマンスを実現することを示す。
関連論文リスト
- MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification [7.136205674624813]
コンピュータビジョン設定では、ノイズ除去処理は入力画像の浄化に有用であることが証明されている。
いくつかの初期の研究は、NLP設定における敵攻撃を緩和するためにランダムノイズ化とデノイズ化の使用について検討している。
我々は拡散過程にインスパイアされた入力浄化テキストの手法を拡張した。
われわれの新しい手法であるMaskPureは、他の現代の防御法と比べて頑丈さを上回ったり、一致させたりします。
論文 参考訳(メタデータ) (2024-06-18T21:27:13Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。
我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。
I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文 参考訳(メタデータ) (2023-11-27T05:35:49Z) - Language Guided Adversarial Purification [3.9931474959554496]
生成モデルを用いた対向浄化は、強い対向防御性能を示す。
新しいフレームワーク、Language Guided Adversarial Purification (LGAP)は、事前訓練された拡散モデルとキャプションジェネレータを利用する。
論文 参考訳(メタデータ) (2023-09-19T06:17:18Z) - DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks [34.86098237949214]
敵対的攻撃、特にパッチ攻撃は、ディープラーニングモデルの堅牢性と信頼性に重大な脅威をもたらす。
本稿では,テキスト誘導拡散モデルを用いてパッチ攻撃に対処する新しい防御フレームワークであるDIFFenderを紹介する。
DIFFenderは、パッチのローカライゼーションと復元の2つのタスクを単一の拡散モデルフレームワークに統合する。
論文 参考訳(メタデータ) (2023-06-15T13:33:27Z) - Text Adversarial Purification as Defense against Adversarial Attacks [46.80714732957078]
敵の浄化は敵の攻撃に対する防御機構として成功している。
本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。
本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文 参考訳(メタデータ) (2022-03-27T04:41:55Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。