論文の概要: Generating Watermarked Adversarial Texts
- arxiv url: http://arxiv.org/abs/2110.12948v1
- Date: Mon, 25 Oct 2021 13:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:36:38.198514
- Title: Generating Watermarked Adversarial Texts
- Title(参考訳): watermarked adversarial テキストの生成
- Authors: Mingjie Li, Hanzhou Wu and Xinpeng Zhang
- Abstract要約: 近年では、ディープニューラルネットワーク(DNN)が生成した敵のサンプルを誤分類する可能性があるため、敵のサンプル生成がホットスポットとなっている。
本稿では,透かし付き逆テキストの例を生成するための一般的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.285034639688377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial example generation has been a hot spot in recent years because it
can cause deep neural networks (DNNs) to misclassify the generated adversarial
examples, which reveals the vulnerability of DNNs, motivating us to find good
solutions to improve the robustness of DNN models. Due to the extensiveness and
high liquidity of natural language over the social networks, various natural
language based adversarial attack algorithms have been proposed in the
literature. These algorithms generate adversarial text examples with high
semantic quality. However, the generated adversarial text examples may be
maliciously or illegally used. In order to tackle with this problem, we present
a general framework for generating watermarked adversarial text examples. For
each word in a given text, a set of candidate words are determined to ensure
that all the words in the set can be used to either carry secret bits or
facilitate the construction of adversarial example. By applying a word-level
adversarial text generation algorithm, the watermarked adversarial text example
can be finally generated. Experiments show that the adversarial text examples
generated by the proposed method not only successfully fool advanced DNN
models, but also carry a watermark that can effectively verify the ownership
and trace the source of the adversarial examples. Moreover, the watermark can
still survive after attacked with adversarial example generation algorithms,
which has shown the applicability and superiority.
- Abstract(参考訳): DNNモデルの堅牢性を改善するための優れたソリューションを見つける動機となるDNNの脆弱性を明らかにするために、深層ニューラルネットワーク(DNN)が生成した敵のサンプルを誤分類する可能性があるため、近年は敵のサンプル生成がホットスポットとなっている。
ソーシャルネットワーク上での自然言語の拡張性と高い流動性のため、様々な自然言語に基づく敵対的攻撃アルゴリズムが文献に提案されている。
これらのアルゴリズムは、高いセマンティック品質の逆テキスト例を生成する。
しかし、生成した敵対的テキストの例は悪意的あるいは違法に使用されることがある。
この問題に対処するために,透かし付き逆文例を生成するための一般的なフレームワークを提案する。
与えられたテキストの各単語に対して、候補単語の集合が決定され、集合内のすべての単語が秘密のビットを運ぶか、敵の例の構築を容易にするために使用できる。
単語レベル逆テキスト生成アルゴリズムを適用することにより、透かし付き逆テキスト例を最終的に生成することができる。
実験により,提案手法が生成する逆テキスト例は,先進的なdnnモデルを騙すだけでなく,その所有権を効果的に検証し,逆テキストの出所を追跡する透かしを持つことが示された。
さらに、ウォーターマークは、適用可能性と優位性を示す逆例生成アルゴリズムによって攻撃された後も生き残ることができる。
関連論文リスト
- Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - Detecting Adversarial Examples by Input Transformations, Defense
Perturbations, and Voting [71.57324258813674]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクにおいて超人的性能に達することが証明されている。
CNNは敵の例、すなわち不正な出力をネットワークに強制する悪意のある画像によって簡単に騙される。
本稿では,画像変換による敵例の検出を幅広く検討し,新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-27T14:50:41Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - BAE: BERT-based Adversarial Examples for Text Classification [9.188318506016898]
我々は,BERTマスマスキング言語モデルからコンテキスト摂動を用いて,敵の例を生成するブラックボックス攻撃であるBAEを提案する。
BAEは, 文法性やセマンティック・コヒーレンスを向上した逆例を生成することに加えて, より強力な攻撃を行うことを示す。
論文 参考訳(メタデータ) (2020-04-04T16:25:48Z) - Generating Natural Language Adversarial Examples on a Large Scale with
Generative Models [41.85006993382117]
生成モデルを用いて,テキストをスクラッチから効率的に生成するエンド・ツー・エンド・ソリューションを提案する。
具体的には,条件付き変分オートエンコーダを訓練し,さらに逆転損失を加えて,逆転例の生成を誘導する。
敵対的テキストの妥当性を向上させるために,識別器と生成的敵対的ネットワークの訓練枠組みを利用する。
論文 参考訳(メタデータ) (2020-03-10T03:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。