論文の概要: Reevaluating Adversarial Examples in Natural Language
- arxiv url: http://arxiv.org/abs/2004.14174v3
- Date: Tue, 21 Dec 2021 22:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 21:09:06.973143
- Title: Reevaluating Adversarial Examples in Natural Language
- Title(参考訳): 自然言語における逆例の再評価
- Authors: John X. Morris, Eli Lifland, Jack Lanchantin, Yangfeng Ji, Yanjun Qi
- Abstract要約: 我々は2つの最先端の同義語代用攻撃の出力を分析した。
それらの摂動はしばしば意味論を保存せず、38%が文法的誤りを導入している。
セマンティクスと文法性を改善するために制約が調整されたことにより、攻撃の成功率は70パーセント以上低下する。
- 参考スコア(独自算出の注目度): 20.14869834829091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art attacks on NLP models lack a shared definition of a what
constitutes a successful attack. We distill ideas from past work into a unified
framework: a successful natural language adversarial example is a perturbation
that fools the model and follows some linguistic constraints. We then analyze
the outputs of two state-of-the-art synonym substitution attacks. We find that
their perturbations often do not preserve semantics, and 38% introduce
grammatical errors. Human surveys reveal that to successfully preserve
semantics, we need to significantly increase the minimum cosine similarities
between the embeddings of swapped words and between the sentence encodings of
original and perturbed sentences.With constraints adjusted to better preserve
semantics and grammaticality, the attack success rate drops by over 70
percentage points.
- Abstract(参考訳): NLPモデルに対する最先端攻撃には、成功した攻撃を構成するものの共有定義が欠けている。
私たちは過去の仕事からアイデアを統一されたフレームワークに蒸留します。 成功した自然言語の逆さまの例は、モデルを騙し、いくつかの言語制約に従う摂動です。
次に、2つの最先端の同義語置換攻撃の出力を分析する。
それらの摂動はしばしば意味論を保存せず、38%が文法的誤りを導入している。
人間の調査によると、意味をうまく保存するためには、スワップされた単語の埋め込みと、原文と摂動文の文エンコーディングとの間のコサインの最小類似性を著しく向上させ、セマンティクスと文法の保存を良くするために調整された制約により、攻撃成功率は70%以上減少する。
関連論文リスト
- Saliency Attention and Semantic Similarity-Driven Adversarial Perturbation [0.0]
SASSP(Saliency Attention and Semantic similarity driven adversarial Perturbation)は、文脈的摂動の有効性を改善するために設計された。
提案手法は,単語選択と摂動のための3段階の戦略を取り入れたものである。
SASSPは高い攻撃成功率と低い単語摂動率を得た。
論文 参考訳(メタデータ) (2024-06-18T14:07:27Z) - Attack Named Entity Recognition by Entity Boundary Interference [83.24698526366682]
名前付きエンティティ認識(NER)は、その堅牢性はほとんど注目されていないが、基礎的なNLPタスクである。
本稿では, 文分類に基づくNER攻撃の原理を再考する。
我々は、キーインサイトに基づく新しいワンワード修正NER攻撃を提案し、NERモデルは、その決定を行うエンティティの境界位置に対して常に脆弱である。
論文 参考訳(メタデータ) (2023-05-09T08:21:11Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Pairwise Supervised Contrastive Learning of Sentence Representations [20.822509446824125]
PairSupConは、セマンティックエンターメントと矛盾理解を高レベルのカテゴリ概念エンコーディングにブリッジすることを目的としている。
異なる粒度の文意味論の理解に関わる様々な下流タスクで評価する。
論文 参考訳(メタデータ) (2021-09-12T04:12:16Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - A Context Aware Approach for Generating Natural Language Attacks [3.52359746858894]
本研究では,意味的に類似した敵対例をテキスト分類と関連タスクに組み込む攻撃戦略を提案する。
提案攻撃は,元の単語とその周囲の文脈の両方の情報を考慮し,候補語を見つける。
論文 参考訳(メタデータ) (2020-12-24T17:24:54Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。