論文の概要: Phrase-level Textual Adversarial Attack with Label Preservation
- arxiv url: http://arxiv.org/abs/2205.10710v2
- Date: Tue, 24 May 2022 08:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 07:38:31.121497
- Title: Phrase-level Textual Adversarial Attack with Label Preservation
- Title(参考訳): ラベル保存によるフレーズレベルのテキスト・アタック
- Authors: Yibin Lei, Yu Cao, Dianqi Li, Tianyi Zhou, Meng Fang, Mykola
Pechenizkiy
- Abstract要約: 本稿では,フレーズレベルの摂動を通じて対数サンプルを生成するPhrase-Level Textual Adrial aTtack (PLAT)を提案する。
PLATは強力なベースラインよりも攻撃効率が優れ、ラベルの一貫性も優れている。
- 参考スコア(独自算出の注目度): 34.42846737465045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality textual adversarial examples is critical for
investigating the pitfalls of natural language processing (NLP) models and
further promoting their robustness. Existing attacks are usually realized
through word-level or sentence-level perturbations, which either limit the
perturbation space or sacrifice fluency and textual quality, both affecting the
attack effectiveness. In this paper, we propose Phrase-Level Textual
Adversarial aTtack (PLAT) that generates adversarial samples through
phrase-level perturbations. PLAT first extracts the vulnerable phrases as
attack targets by a syntactic parser, and then perturbs them by a pre-trained
blank-infilling model. Such flexible perturbation design substantially expands
the search space for more effective attacks without introducing too many
modifications, and meanwhile maintaining the textual fluency and grammaticality
via contextualized generation using surrounding texts. Moreover, we develop a
label-preservation filter leveraging the likelihoods of language models
fine-tuned on each class, rather than textual similarity, to rule out those
perturbations that potentially alter the original class label for humans.
Extensive experiments and human evaluation demonstrate that PLAT has a superior
attack effectiveness as well as a better label consistency than strong
baselines.
- Abstract(参考訳): 高品質なテキスト対逆例を生成することは、自然言語処理(NLP)モデルの落とし穴の調査と、その堅牢性の向上に不可欠である。
既存の攻撃は通常、単語レベルの摂動または文レベルの摂動によって実現され、摂動空間を制限するか、フラレンシーとテキストの質を犠牲にするかのどちらかであり、どちらも攻撃効果に影響を与える。
本稿では,語句レベルの摂動を通じて,対数サンプルを生成するPhrase-Level Textual Adversarial aTtack(PLAT)を提案する。
PLATはまず、構文解析器によって攻撃対象として脆弱なフレーズを抽出し、訓練済みの空白埋め込みモデルで摂動する。
このような柔軟な摂動設計は、多くの修正を加えることなく、より効果的な攻撃のための探索空間を実質的に拡大させ、一方で、周囲のテキストを用いた文脈化生成を通じて、テキストの流束性と文法性を維持する。
さらに、テキストの類似性ではなく、各クラスで微調整された言語モデルの可能性を利用したラベル保存フィルタを開発し、人間の元のクラスラベルを変更する可能性のある摂動を排除した。
広範囲な実験と人的評価により、PLATは強力なベースラインよりも優れた攻撃効果とラベル一貫性を有することが示された。
関連論文リスト
- In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Adversarial Text Normalization [2.9434930072968584]
逆テキスト正規化器は、少ない計算オーバーヘッドで攻撃されたコンテンツのベースライン性能を回復する。
テキスト正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供する。
論文 参考訳(メタデータ) (2022-06-08T19:44:03Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。