論文の概要: Generating Natural Language Adversarial Examples on a Large Scale with
Generative Models
- arxiv url: http://arxiv.org/abs/2003.10388v1
- Date: Tue, 10 Mar 2020 03:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:17:52.781534
- Title: Generating Natural Language Adversarial Examples on a Large Scale with
Generative Models
- Title(参考訳): 生成モデルを用いた大規模自然言語逆例の生成
- Authors: Yankun Ren and Jianbin Lin and Siliang Tang and Jun Zhou and Shuang
Yang and Yuan Qi and Xiang Ren
- Abstract要約: 生成モデルを用いて,テキストをスクラッチから効率的に生成するエンド・ツー・エンド・ソリューションを提案する。
具体的には,条件付き変分オートエンコーダを訓練し,さらに逆転損失を加えて,逆転例の生成を誘導する。
敵対的テキストの妥当性を向上させるために,識別器と生成的敵対的ネットワークの訓練枠組みを利用する。
- 参考スコア(独自算出の注目度): 41.85006993382117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today text classification models have been widely used. However, these
classifiers are found to be easily fooled by adversarial examples. Fortunately,
standard attacking methods generate adversarial texts in a pair-wise way, that
is, an adversarial text can only be created from a real-world text by replacing
a few words. In many applications, these texts are limited in numbers,
therefore their corresponding adversarial examples are often not diverse enough
and sometimes hard to read, thus can be easily detected by humans and cannot
create chaos at a large scale. In this paper, we propose an end to end solution
to efficiently generate adversarial texts from scratch using generative models,
which are not restricted to perturbing the given texts. We call it unrestricted
adversarial text generation. Specifically, we train a conditional variational
autoencoder (VAE) with an additional adversarial loss to guide the generation
of adversarial examples. Moreover, to improve the validity of adversarial
texts, we utilize discrimators and the training framework of generative
adversarial networks (GANs) to make adversarial texts consistent with real
data. Experimental results on sentiment analysis demonstrate the scalability
and efficiency of our method. It can attack text classification models with a
higher success rate than existing methods, and provide acceptable quality for
humans in the meantime.
- Abstract(参考訳): 現在、テキスト分類モデルは広く使われている。
しかし、これらの分類器は逆例によって容易に騙される。
幸いなことに、標準的な攻撃方法は、対向テキストを生成する。つまり、逆テキストは、いくつかの単語を置き換えることで、現実世界のテキストからのみ生成することができる。
多くのアプリケーションでは、これらのテキストは数に制限があるため、その逆の例はしばしば多様ではなく、時には読みにくいため、人間が容易に検出でき、大規模にカオスを起こすことができない。
本稿では,テキストの摂動に制限されない生成モデルを用いて,テキストをスクラッチから効率的に生成するエンド・ツー・エンドのソリューションを提案する。
これを非制限逆テキスト生成と呼ぶ。
具体的には,条件付き変分オートエンコーダ(VAE)を学習し,さらに逆転損失を加えて,逆転例の生成を誘導する。
さらに,敵対的テキストの妥当性を向上させるために,実データと一致するように,識別器とGAN(Generative Adversarial Network)のトレーニングフレームワークを利用する。
感情分析実験により,本手法のスケーラビリティと効率性を示す。
既存の手法よりも高い成功率でテキスト分類モデルを攻撃することができ、一方で人間には許容できる品質を提供する。
関連論文リスト
- A Constraint-Enforcing Reward for Adversarial Attacks on Text Classifiers [10.063169009242682]
逆例を生成するために,エンコーダ-デコーダパラフレーズモデルを訓練する。
我々は強化学習アルゴリズムを採用し、制約付き報酬を提案する。
提案手法の主な設計選択が生成した例にどのように影響するかを示し,提案手法の長所と短所について議論する。
論文 参考訳(メタデータ) (2024-05-20T09:33:43Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Generating Watermarked Adversarial Texts [25.285034639688377]
近年では、ディープニューラルネットワーク(DNN)が生成した敵のサンプルを誤分類する可能性があるため、敵のサンプル生成がホットスポットとなっている。
本稿では,透かし付き逆テキストの例を生成するための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-25T13:37:23Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z) - BAE: BERT-based Adversarial Examples for Text Classification [9.188318506016898]
我々は,BERTマスマスキング言語モデルからコンテキスト摂動を用いて,敵の例を生成するブラックボックス攻撃であるBAEを提案する。
BAEは, 文法性やセマンティック・コヒーレンスを向上した逆例を生成することに加えて, より強力な攻撃を行うことを示す。
論文 参考訳(メタデータ) (2020-04-04T16:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。