論文の概要: Less is More: Understanding Word-level Textual Adversarial Attack via
n-gram Frequency Descend
- arxiv url: http://arxiv.org/abs/2302.02568v1
- Date: Mon, 6 Feb 2023 05:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:31:16.952416
- Title: Less is More: Understanding Word-level Textual Adversarial Attack via
n-gram Frequency Descend
- Title(参考訳): less is more: n-gram frequency descendによる単語レベルのテキスト会話攻撃の理解
- Authors: Ning Lu, Zhirui Zhang, Qi Wang, Haifeng Liu, Ke Tang, Shengcai Liu
- Abstract要約: 既存の単語レベルの攻撃は、$n$-gramの周波数降下を持つ例を生成する傾向が強い。
我々は,$n$-gramの周波数情報のみに依存するモデルに依存しない,勾配のないAE生成手法を考案する。
- 参考スコア(独自算出の注目度): 44.55850722460889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word-level textual adversarial attacks have achieved striking performance in
fooling natural language processing models. However, the fundamental questions
of why these attacks are effective, and the intrinsic properties of the
adversarial examples (AEs), are still not well understood. This work attempts
to interpret textual attacks through the lens of $n$-gram frequency.
Specifically, it is revealed that existing word-level attacks exhibit a strong
tendency toward generation of examples with $n$-gram frequency descend
($n$-FD). Intuitively, this finding suggests a natural way to improve model
robustness by training the model on the $n$-FD examples. To verify this idea,
we devise a model-agnostic and gradient-free AE generation approach that relies
solely on the $n$-gram frequency information, and further integrate it into the
recently proposed convex hull framework for adversarial training. Surprisingly,
the resultant method performs quite similarly to the original gradient-based
method in terms of model robustness. These findings provide a
human-understandable perspective for interpreting word-level textual
adversarial attacks, and a new direction to improve model robustness.
- Abstract(参考訳): 単語レベルのテキスト対逆攻撃は、自然言語処理モデルを騙すことで顕著なパフォーマンスを達成した。
しかし、これらの攻撃がなぜ効果的かという根本的な疑問や、敵例(AE)の本質的な性質はいまだよく理解されていない。
この研究は、$n$-gramの周波数でテキスト攻撃を解釈しようとする。
具体的には、既存の単語レベルの攻撃は、n$-gram周波数降下 (n$-fd) の例を生成する傾向が強いことが明らかになった。
直感的にこの発見は、n$-fdの例でモデルをトレーニングすることで、モデルの堅牢性を改善する自然な方法を示している。
この概念を検証するために,n$-gram の周波数情報のみに依存するモデル非依存な ae 生成手法を考案し,最近提案された対向学習用凸包フレームワークにさらに統合する。
驚くべきことに、結果として得られる手法はモデルロバストネスの点で元の勾配法と非常によく似ている。
これらの知見は,単語レベルのテキストの敵対的攻撃を解釈するための人間の理解可能な視点と,モデルロバスト性を改善するための新たな方向性を提供する。
関連論文リスト
- In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Adversarial Training for Improving Model Robustness? Look at Both
Prediction and Interpretation [21.594361495948316]
本稿では,FLAT という新しい特徴レベルの対角訓練手法を提案する。
FLATは、グローバルな単語の重要性を学ぶために、変分ワードマスクをニューラルネットワークに組み込んでいる。
FLATが予測と解釈の両方において頑健性を向上させる効果を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-23T20:04:14Z) - Towards Compositional Adversarial Robustness: Generalizing Adversarial
Training to Composite Semantic Perturbations [70.05004034081377]
まず,合成逆数例を生成する新しい手法を提案する。
本手法は, コンポーネントワイド射影勾配勾配を利用して最適攻撃組成を求める。
次に,モデルロバスト性を$ell_p$-ballから複合意味摂動へ拡張するための一般化逆トレーニング(GAT)を提案する。
論文 参考訳(メタデータ) (2022-02-09T02:41:56Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。