論文の概要: Adversarial Text Purification: A Large Language Model Approach for
Defense
- arxiv url: http://arxiv.org/abs/2402.06655v1
- Date: Mon, 5 Feb 2024 02:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 13:54:10.583559
- Title: Adversarial Text Purification: A Large Language Model Approach for
Defense
- Title(参考訳): adversarial text clean: 防衛のための大規模言語モデルアプローチ
- Authors: Raha Moraffah, Shubh Khandelwal, Amrita Bhattacharjee, and Huan Liu
- Abstract要約: 敵の浄化は、敵の攻撃に対して分類器を保護するための防御機構である。
そこで本稿では,大規模言語モデルの生成能力を生かした,新たな逆文清浄法を提案する。
提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
- 参考スコア(独自算出の注目度): 25.041109219049442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial purification is a defense mechanism for safeguarding classifiers
against adversarial attacks without knowing the type of attacks or training of
the classifier. These techniques characterize and eliminate adversarial
perturbations from the attacked inputs, aiming to restore purified samples that
retain similarity to the initially attacked ones and are correctly classified
by the classifier. Due to the inherent challenges associated with
characterizing noise perturbations for discrete inputs, adversarial text
purification has been relatively unexplored. In this paper, we investigate the
effectiveness of adversarial purification methods in defending text
classifiers. We propose a novel adversarial text purification that harnesses
the generative capabilities of Large Language Models (LLMs) to purify
adversarial text without the need to explicitly characterize the discrete noise
perturbations. We utilize prompt engineering to exploit LLMs for recovering the
purified examples for given adversarial examples such that they are
semantically similar and correctly classified. Our proposed method demonstrates
remarkable performance over various classifiers, improving their accuracy under
the attack by over 65% on average.
- Abstract(参考訳): 敵対的浄化は、攻撃の種類や分類者の訓練を知ることなく、敵対的攻撃に対して分類器を保護するための防御機構である。
これらの手法は攻撃された入力から敵の摂動を特徴づけ、排除し、初期攻撃された入力と類似性を保持し、分類器によって正しく分類される精製サンプルを復元することを目的としている。
離散入力に対するノイズの摂動を特徴付ける本質的な課題から、逆行テキストの浄化は比較的未検討である。
本稿では,テキスト分類器の防御における逆浄化法の有効性について検討する。
本稿では,Large Language Models (LLMs) の生成能力を活用して,離散雑音の摂動を明示的に特徴づけることなく,対向テキストを浄化する新しい対向テキスト浄化法を提案する。
我々は, llmを用いて, 意味的に類似し, 正しく分類されるような, 特定の敵例の純化例を回収する。
提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
関連論文リスト
- Classifier Guidance Enhances Diffusion-based Adversarial Purification by Preserving Predictive Information [75.36597470578724]
敵の浄化は、敵の攻撃からニューラルネットワークを守るための有望なアプローチの1つである。
分類器決定境界から遠ざかって, 清浄するgUided Purification (COUP)アルゴリズムを提案する。
実験結果から, COUPは強力な攻撃法でより優れた対向的堅牢性が得られることが示された。
論文 参考訳(メタデータ) (2024-08-12T02:48:00Z) - DiffuseDef: Improved Robustness to Adversarial Attacks [38.34642687239535]
敵の攻撃は、事前訓練された言語モデルを使って構築されたシステムにとって重要な課題となる。
本稿では,拡散層をエンコーダと分類器のデノイザとして組み込んだDiffuseDefを提案する。
推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
論文 参考訳(メタデータ) (2024-06-28T22:36:17Z) - MaskPure: Improving Defense Against Text Adversaries with Stochastic Purification [7.136205674624813]
コンピュータビジョン設定では、ノイズ除去処理は入力画像の浄化に有用であることが証明されている。
いくつかの初期の研究は、NLP設定における敵攻撃を緩和するためにランダムノイズ化とデノイズ化の使用について検討している。
我々は拡散過程にインスパイアされた入力浄化テキストの手法を拡張した。
われわれの新しい手法であるMaskPureは、他の現代の防御法と比べて頑丈さを上回ったり、一致させたりします。
論文 参考訳(メタデータ) (2024-06-18T21:27:13Z) - Scalable Ensemble-based Detection Method against Adversarial Attacks for
speaker verification [73.30974350776636]
本稿では,一貫した枠組みにおける主流浄化手法を包括的に比較する。
本稿では, 検出のための高度浄化モジュールを組み込んだ, 簡単に追従できるアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:04:05Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z) - Text Adversarial Purification as Defense against Adversarial Attacks [46.80714732957078]
敵の浄化は敵の攻撃に対する防御機構として成功している。
本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。
本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文 参考訳(メタデータ) (2022-03-27T04:41:55Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。