論文の概要: Detecting Textual Adversarial Examples Based on Distributional
Characteristics of Data Representations
- arxiv url: http://arxiv.org/abs/2204.13853v1
- Date: Fri, 29 Apr 2022 02:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 13:17:12.098313
- Title: Detecting Textual Adversarial Examples Based on Distributional
Characteristics of Data Representations
- Title(参考訳): データ表現の分布特性に基づく文逆例の検出
- Authors: Na Liu, Mark Dras, Wei Emma Zhang
- Abstract要約: 逆の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構成される。
自然言語タスクにおける敵対的攻撃へのアプローチは、文字レベル、単語レベル、フレーズレベルの摂動を用いて、過去5年間にブームとなった。
我々はこのギャップを埋めるために,NLPのための2つの新しいリアクティブ手法を提案する。
適応 LID と MDRE は、IMDB データセットに対する文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 11.93653349589025
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although deep neural networks have achieved state-of-the-art performance in
various machine learning tasks, adversarial examples, constructed by adding
small non-random perturbations to correctly classified inputs, successfully
fool highly expressive deep classifiers into incorrect predictions. Approaches
to adversarial attacks in natural language tasks have boomed in the last five
years using character-level, word-level, phrase-level, or sentence-level
textual perturbations. While there is some work in NLP on defending against
such attacks through proactive methods, like adversarial training, there is to
our knowledge no effective general reactive approaches to defence via detection
of textual adversarial examples such as is found in the image processing
literature. In this paper, we propose two new reactive methods for NLP to fill
this gap, which unlike the few limited application baselines from NLP are based
entirely on distribution characteristics of learned representations: we adapt
one from the image processing literature (Local Intrinsic Dimensionality
(LID)), and propose a novel one (MultiDistance Representation Ensemble Method
(MDRE)). Adapted LID and MDRE obtain state-of-the-art results on
character-level, word-level, and phrase-level attacks on the IMDB dataset as
well as on the later two with respect to the MultiNLI dataset. For future
research, we publish our code.
- Abstract(参考訳): ディープニューラルネットワークは、様々な機械学習タスクにおいて最先端のパフォーマンスを達成したが、敵の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構築され、高度に表現力のあるディープ分類器を誤った予測に騙すことに成功した。
自然言語タスクにおける敵意攻撃へのアプローチは、文字レベル、単語レベル、句レベル、文レベルのテキスト摂動を用いて過去5年間に急増している。
対人訓練のような積極的な手法による攻撃に対する防御には、NLPではいくつかの研究があるが、画像処理文献に見られるようなテキスト対人例の検出を通じて、防御に対する効果的な汎用的なアプローチは存在しない。
本稿では,このギャップを埋めるための2つの新しいリアクティブ手法を提案する。NLPの限られたアプリケーションベースラインは,学習表現の分布特性を完全にベースとしており,画像処理文献(局所内在的次元性(LID))から1つを適応させ,新しいもの(MDRE)を提案する。
Adapted LIDとMDREは、MultiNLIデータセットに関して、IMDBデータセットだけでなく、文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。
今後の研究のために、コードを公開します。
関連論文リスト
- SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks [29.942001958562567]
本稿では,セマンティック・ロバスト・ディフェンス(Semantic Robust Defence, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス, セマンティック・ロバスト・ディフェンス)
この2つの領域を橋渡しする頑健な表現を学習する。
結果は、最先端の堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-27T10:24:25Z) - TextDefense: Adversarial Text Detection based on Word Importance Entropy [38.632552667871295]
NLPモデルの新たな逆例検出フレームワークであるTextDefenseを提案する。
実験の結果,TextDefenseは異なるアーキテクチャ,データセット,アタックメソッドに適用可能であることがわかった。
我々はNLPの敵攻撃と防衛方法の原理に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-02-12T11:12:44Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Phrase-level Adversarial Example Generation for Neural Machine
Translation [75.01476479100569]
本稿では,句レベルの逆例生成(PAEG)手法を提案し,モデルの堅牢性を高める。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
論文 参考訳(メタデータ) (2022-01-06T11:00:49Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Searching for an Effective Defender: Benchmarking Defense against
Adversarial Word Substitution [83.84968082791444]
ディープニューラルネットワークは、意図的に構築された敵の例に対して脆弱である。
ニューラルNLPモデルに対する敵対的単語置換攻撃を防御する様々な方法が提案されている。
論文 参考訳(メタデータ) (2021-08-29T08:11:36Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z) - Defense of Word-level Adversarial Attacks via Random Substitution
Encoding [0.5964792400314836]
コンピュータビジョンタスクにおけるディープニューラルネットワークに対する敵対的な攻撃は、モデルを保護するための多くの新しい技術を生み出しました。
近年、自然言語処理(NLP)タスクの深層モデルに対する単語レベルの敵対攻撃は、例えば、感情分類ニューラルネットワークを騙して誤った判断を下すなど、強力な力を示している。
本稿ではランダム置換(Random Substitution RSE)という,ニューラルネットワークのトレーニングプロセスにランダム置換を導入する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-01T15:28:43Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。