論文の概要: Less is More: Understanding Word-level Textual Adversarial Attack via
n-gram Frequency Descend
- arxiv url: http://arxiv.org/abs/2302.02568v1
- Date: Mon, 6 Feb 2023 05:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:31:16.952416
- Title: Less is More: Understanding Word-level Textual Adversarial Attack via
n-gram Frequency Descend
- Title(参考訳): less is more: n-gram frequency descendによる単語レベルのテキスト会話攻撃の理解
- Authors: Ning Lu, Zhirui Zhang, Qi Wang, Haifeng Liu, Ke Tang, Shengcai Liu
- Abstract要約: 既存の単語レベルの攻撃は、$n$-gramの周波数降下を持つ例を生成する傾向が強い。
我々は,$n$-gramの周波数情報のみに依存するモデルに依存しない,勾配のないAE生成手法を考案する。
- 参考スコア(独自算出の注目度): 44.55850722460889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word-level textual adversarial attacks have achieved striking performance in
fooling natural language processing models. However, the fundamental questions
of why these attacks are effective, and the intrinsic properties of the
adversarial examples (AEs), are still not well understood. This work attempts
to interpret textual attacks through the lens of $n$-gram frequency.
Specifically, it is revealed that existing word-level attacks exhibit a strong
tendency toward generation of examples with $n$-gram frequency descend
($n$-FD). Intuitively, this finding suggests a natural way to improve model
robustness by training the model on the $n$-FD examples. To verify this idea,
we devise a model-agnostic and gradient-free AE generation approach that relies
solely on the $n$-gram frequency information, and further integrate it into the
recently proposed convex hull framework for adversarial training. Surprisingly,
the resultant method performs quite similarly to the original gradient-based
method in terms of model robustness. These findings provide a
human-understandable perspective for interpreting word-level textual
adversarial attacks, and a new direction to improve model robustness.
- Abstract(参考訳): 単語レベルのテキスト対逆攻撃は、自然言語処理モデルを騙すことで顕著なパフォーマンスを達成した。
しかし、これらの攻撃がなぜ効果的かという根本的な疑問や、敵例(AE)の本質的な性質はいまだよく理解されていない。
この研究は、$n$-gramの周波数でテキスト攻撃を解釈しようとする。
具体的には、既存の単語レベルの攻撃は、n$-gram周波数降下 (n$-fd) の例を生成する傾向が強いことが明らかになった。
直感的にこの発見は、n$-fdの例でモデルをトレーニングすることで、モデルの堅牢性を改善する自然な方法を示している。
この概念を検証するために,n$-gram の周波数情報のみに依存するモデル非依存な ae 生成手法を考案し,最近提案された対向学習用凸包フレームワークにさらに統合する。
驚くべきことに、結果として得られる手法はモデルロバストネスの点で元の勾配法と非常によく似ている。
これらの知見は,単語レベルのテキストの敵対的攻撃を解釈するための人間の理解可能な視点と,モデルロバスト性を改善するための新たな方向性を提供する。
関連論文リスト
- SenTest: Evaluating Robustness of Sentence Encoders [0.4194295877935868]
本研究は文エンコーダの堅牢性を評価することに焦点を当てる。
我々はその堅牢性を評価するためにいくつかの敵攻撃を用いる。
実験結果は文エンコーダの堅牢性を強く損なう。
論文 参考訳(メタデータ) (2023-11-29T15:21:35Z) - LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial
Attack [3.410883081705873]
本稿では,LimeAttackという新しいハードラベル攻撃アルゴリズムを提案する。
LimeAttackは既存のハードラベル攻撃と比較して攻撃性能が良いことを示す。
LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。
論文 参考訳(メタデータ) (2023-08-01T06:30:37Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Phrase-level Adversarial Example Generation for Neural Machine
Translation [75.01476479100569]
本稿では,句レベルの逆例生成(PAEG)手法を提案し,モデルの堅牢性を高める。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
論文 参考訳(メタデータ) (2022-01-06T11:00:49Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z) - Frequency-Guided Word Substitutions for Detecting Textual Adversarial
Examples [16.460051008283887]
我々は,CNN,LSTM,Transformerに基づく分類モデルに対する敵対攻撃が単語置換を行うことを示す。
本稿では,周波数誘導語置換法(FGWS)を提案する。
FGWS は,SST-2 と IMDb の感情データセット上での逆例を正確に検出することにより,高い性能を実現する。
論文 参考訳(メタデータ) (2020-04-13T12:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。