論文の概要: Text Adversarial Purification as Defense against Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2203.14207v2
- Date: Wed, 3 May 2023 09:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 19:09:20.709697
- Title: Text Adversarial Purification as Defense against Adversarial Attacks
- Title(参考訳): テキスト・アタックに対する防御としてのテキスト・アタック
- Authors: Linyang Li, Demin Song, Xipeng Qiu
- Abstract要約: 敵の浄化は敵の攻撃に対する防御機構として成功している。
本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。
本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
- 参考スコア(独自算出の注目度): 46.80714732957078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial purification is a successful defense mechanism against
adversarial attacks without requiring knowledge of the form of the incoming
attack. Generally, adversarial purification aims to remove the adversarial
perturbations therefore can make correct predictions based on the recovered
clean samples. Despite the success of adversarial purification in the computer
vision field that incorporates generative models such as energy-based models
and diffusion models, using purification as a defense strategy against textual
adversarial attacks is rarely explored. In this work, we introduce a novel
adversarial purification method that focuses on defending against textual
adversarial attacks. With the help of language models, we can inject noise by
masking input texts and reconstructing the masked texts based on the masked
language models. In this way, we construct an adversarial purification process
for textual models against the most widely used word-substitution adversarial
attacks. We test our proposed adversarial purification method on several strong
adversarial attack methods including Textfooler and BERT-Attack and
experimental results indicate that the purification algorithm can successfully
defend against strong word-substitution attacks.
- Abstract(参考訳): 敵の浄化は、攻撃形態の知識を必要とせず、敵の攻撃に対する防御機構として成功している。
一般に, 敵の摂動を除去し, 回収したクリーンサンプルに基づいて正確な予測を行うことが目的である。
エネルギーベースモデルや拡散モデルなどの生成モデルを組み込んだコンピュータビジョン分野における敵の浄化の成功にもかかわらず、テキストの敵対的攻撃に対する防御戦略として浄化を用いることはまれである。
本稿では,テキストによる敵意攻撃を防御することに焦点を当てた,新たな敵意浄化手法を提案する。
言語モデルの助けを借りて、入力テキストをマスキングし、マスキングされた言語モデルに基づいてマスキングテキストを再構築することでノイズを注入することができる。
このようにして、最も広く使われている単語置換攻撃に対するテキストモデルに対する逆正解法を構築する。
本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証し, 高い単語置換攻撃に対して, その除去アルゴリズムが有効であることを示す実験結果を得た。
関連論文リスト
- DiffuseDef: Improved Robustness to Adversarial Attacks [38.34642687239535]
敵の攻撃は、事前訓練された言語モデルを使って構築されたシステムにとって重要な課題となる。
本稿では,拡散層をエンコーダと分類器のデノイザとして組み込んだDiffuseDefを提案する。
推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
論文 参考訳(メタデータ) (2024-06-28T22:36:17Z) - MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification [7.136205674624813]
コンピュータビジョン設定では、ノイズ除去処理は入力画像の浄化に有用であることが証明されている。
いくつかの初期の研究は、NLP設定における敵攻撃を緩和するためにランダムノイズ化とデノイズ化の使用について検討している。
我々は拡散過程にインスパイアされた入力浄化テキストの手法を拡張した。
われわれの新しい手法であるMaskPureは、他の現代の防御法と比べて頑丈さを上回ったり、一致させたりします。
論文 参考訳(メタデータ) (2024-06-18T21:27:13Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Adversarial Text Purification: A Large Language Model Approach for
Defense [25.041109219049442]
敵の浄化は、敵の攻撃に対して分類器を保護するための防御機構である。
そこで本稿では,大規模言語モデルの生成能力を生かした,新たな逆文清浄法を提案する。
提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
論文 参考訳(メタデータ) (2024-02-05T02:36:41Z) - Language Guided Adversarial Purification [3.9931474959554496]
生成モデルを用いた対向浄化は、強い対向防御性能を示す。
新しいフレームワーク、Language Guided Adversarial Purification (LGAP)は、事前訓練された拡散モデルとキャプションジェネレータを利用する。
論文 参考訳(メタデータ) (2023-09-19T06:17:18Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。