論文の概要: TextDefense: Adversarial Text Detection based on Word Importance Entropy
- arxiv url: http://arxiv.org/abs/2302.05892v1
- Date: Sun, 12 Feb 2023 11:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 17:56:42.387959
- Title: TextDefense: Adversarial Text Detection based on Word Importance Entropy
- Title(参考訳): TextDefense:単語の重要度エントロピーに基づく逆テキスト検出
- Authors: Lujia Shen, Xuhong Zhang, Shouling Ji, Yuwen Pu, Chunpeng Ge, Xing
Yang, Yanghe Feng
- Abstract要約: NLPモデルの新たな逆例検出フレームワークであるTextDefenseを提案する。
実験の結果,TextDefenseは異なるアーキテクチャ,データセット,アタックメソッドに適用可能であることがわかった。
我々はNLPの敵攻撃と防衛方法の原理に対する洞察を提供する。
- 参考スコア(独自算出の注目度): 38.632552667871295
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Currently, natural language processing (NLP) models are wildly used in
various scenarios. However, NLP models, like all deep models, are vulnerable to
adversarially generated text. Numerous works have been working on mitigating
the vulnerability from adversarial attacks. Nevertheless, there is no
comprehensive defense in existing works where each work targets a specific
attack category or suffers from the limitation of computation overhead,
irresistible to adaptive attack, etc.
In this paper, we exhaustively investigate the adversarial attack algorithms
in NLP, and our empirical studies have discovered that the attack algorithms
mainly disrupt the importance distribution of words in a text. A well-trained
model can distinguish subtle importance distribution differences between clean
and adversarial texts. Based on this intuition, we propose TextDefense, a new
adversarial example detection framework that utilizes the target model's
capability to defend against adversarial attacks while requiring no prior
knowledge. TextDefense differs from previous approaches, where it utilizes the
target model for detection and thus is attack type agnostic. Our extensive
experiments show that TextDefense can be applied to different architectures,
datasets, and attack methods and outperforms existing methods. We also discover
that the leading factor influencing the performance of TextDefense is the
target model's generalizability. By analyzing the property of the target model
and the property of the adversarial example, we provide our insights into the
adversarial attacks in NLP and the principles of our defense method.
- Abstract(参考訳): 現在、自然言語処理(NLP)モデルは様々なシナリオで広く使われている。
しかし、nlpモデルは全ての深層モデルと同様に、敵対的に生成されたテキストに対して脆弱である。
敵の攻撃から脆弱性を緩和する研究が数多く行われている。
しかし、既存の作業では、各作業が特定の攻撃カテゴリをターゲットにしているか、あるいは、適応攻撃とは無関係な計算オーバーヘッドの制限に悩まされているような包括的な防御は存在しない。
本稿では,NLPにおける逆攻撃アルゴリズムを徹底的に検討し,本手法がテキスト中の単語の重要性の分布を阻害することを発見した。
よく訓練されたモデルは、クリーンテキストと逆テキストの微妙な重要性分布の違いを区別することができる。
この直感に基づくTextDefenseは,先行知識を必要とせず,敵の攻撃を防御するターゲットモデルの能力を利用した,新たな敵のサンプル検出フレームワークである。
テキスト防御は、ターゲットモデルを検出に利用し、攻撃タイプに依存しない以前のアプローチと異なる。
我々の広範な実験により、テキスト防御は異なるアーキテクチャ、データセット、攻撃メソッドに適用でき、既存のメソッドよりも優れています。
また,TextDefenseの性能に影響を及ぼす要因が対象モデルの一般化可能であることも確認した。
対象モデルの特性と敵の例の性質を分析することで、我々はnlpにおける敵の攻撃と我々の防御方法の原則に関する洞察を提供する。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Defense-Prefix for Preventing Typographic Attacks on CLIP [14.832208701208414]
一部の敵対的攻撃は、モデルを偽りまたはばかげた分類に騙す。
我々は,DP トークンをクラス名の前に挿入して,文字攻撃に対して "robust" という単語を"robust" する,シンプルで効果的な方法を紹介した。
本手法は, モデルにおけるゼロショット能力を維持しつつ, タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-04-10T11:05:20Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Searching for an Effective Defender: Benchmarking Defense against
Adversarial Word Substitution [83.84968082791444]
ディープニューラルネットワークは、意図的に構築された敵の例に対して脆弱である。
ニューラルNLPモデルに対する敵対的単語置換攻撃を防御する様々な方法が提案されている。
論文 参考訳(メタデータ) (2021-08-29T08:11:36Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Defense of Word-level Adversarial Attacks via Random Substitution
Encoding [0.5964792400314836]
コンピュータビジョンタスクにおけるディープニューラルネットワークに対する敵対的な攻撃は、モデルを保護するための多くの新しい技術を生み出しました。
近年、自然言語処理(NLP)タスクの深層モデルに対する単語レベルの敵対攻撃は、例えば、感情分類ニューラルネットワークを騙して誤った判断を下すなど、強力な力を示している。
本稿ではランダム置換(Random Substitution RSE)という,ニューラルネットワークのトレーニングプロセスにランダム置換を導入する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-01T15:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。