Fugu-MT 論文翻訳(概要): Generating Watermarked Adversarial Texts

論文の概要: Generating Watermarked Adversarial Texts

arxiv url: http://arxiv.org/abs/2110.12948v1
Date: Mon, 25 Oct 2021 13:37:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-26 16:36:38.198514
Title: Generating Watermarked Adversarial Texts
Title（参考訳）: watermarked adversarial テキストの生成
Authors: Mingjie Li, Hanzhou Wu and Xinpeng Zhang
Abstract要約: 近年では、ディープニューラルネットワーク(DNN)が生成した敵のサンプルを誤分類する可能性があるため、敵のサンプル生成がホットスポットとなっている。本稿では,透かし付き逆テキストの例を生成するための一般的なフレームワークを提案する。
参考スコア（独自算出の注目度）: 25.285034639688377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adversarial example generation has been a hot spot in recent years because it can cause deep neural networks (DNNs) to misclassify the generated adversarial examples, which reveals the vulnerability of DNNs, motivating us to find good solutions to improve the robustness of DNN models. Due to the extensiveness and high liquidity of natural language over the social networks, various natural language based adversarial attack algorithms have been proposed in the literature. These algorithms generate adversarial text examples with high semantic quality. However, the generated adversarial text examples may be maliciously or illegally used. In order to tackle with this problem, we present a general framework for generating watermarked adversarial text examples. For each word in a given text, a set of candidate words are determined to ensure that all the words in the set can be used to either carry secret bits or facilitate the construction of adversarial example. By applying a word-level adversarial text generation algorithm, the watermarked adversarial text example can be finally generated. Experiments show that the adversarial text examples generated by the proposed method not only successfully fool advanced DNN models, but also carry a watermark that can effectively verify the ownership and trace the source of the adversarial examples. Moreover, the watermark can still survive after attacked with adversarial example generation algorithms, which has shown the applicability and superiority.
Abstract（参考訳）: DNNモデルの堅牢性を改善するための優れたソリューションを見つける動機となるDNNの脆弱性を明らかにするために、深層ニューラルネットワーク(DNN)が生成した敵のサンプルを誤分類する可能性があるため、近年は敵のサンプル生成がホットスポットとなっている。ソーシャルネットワーク上での自然言語の拡張性と高い流動性のため、様々な自然言語に基づく敵対的攻撃アルゴリズムが文献に提案されている。これらのアルゴリズムは、高いセマンティック品質の逆テキスト例を生成する。しかし、生成した敵対的テキストの例は悪意的あるいは違法に使用されることがある。この問題に対処するために,透かし付き逆文例を生成するための一般的なフレームワークを提案する。与えられたテキストの各単語に対して、候補単語の集合が決定され、集合内のすべての単語が秘密のビットを運ぶか、敵の例の構築を容易にするために使用できる。単語レベル逆テキスト生成アルゴリズムを適用することにより、透かし付き逆テキスト例を最終的に生成することができる。実験により,提案手法が生成する逆テキスト例は,先進的なdnnモデルを騙すだけでなく,その所有権を効果的に検証し,逆テキストの出所を追跡する透かしを持つことが示された。さらに、ウォーターマークは、適用可能性と優位性を示す逆例生成アルゴリズムによって攻撃された後も生き残ることができる。

関連論文リスト

Topic-Based Watermarks for Large Language Models [46.71493672772134]
本稿では,Large Language Model (LLM) 出力のための軽量なトピック誘導型透かし方式を提案する。本手法は,Google の SynthID-Text など,業界をリードするシステムに匹敵する難易度を実現する。
論文参考訳（メタデータ） (2024-04-02T17:49:40Z)
Improving the Generation Quality of Watermarked Large Language Models via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。 We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文参考訳（メタデータ） (2023-11-16T08:36:00Z)
SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文参考訳（メタデータ） (2023-10-06T03:33:42Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
Contrasting Human- and Machine-Generated Word-Level Adversarial Examples for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文参考訳（メタデータ） (2021-09-09T16:16:04Z)
Detecting Adversarial Examples by Input Transformations, Defense Perturbations, and Voting [71.57324258813674]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクにおいて超人的性能に達することが証明されている。 CNNは敵の例、すなわち不正な出力をネットワークに強制する悪意のある画像によって簡単に騙される。本稿では,画像変換による敵例の検出を幅広く検討し,新しい手法を提案する。
論文参考訳（メタデータ） (2021-01-27T14:50:41Z)
Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文参考訳（メタデータ） (2020-09-16T06:53:15Z)
Adversarial Watermarking Transformer: Towards Tracing Text Provenance with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。 AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文参考訳（メタデータ） (2020-09-07T11:01:24Z)
BAE: BERT-based Adversarial Examples for Text Classification [9.188318506016898]
我々は,BERTマスマスキング言語モデルからコンテキスト摂動を用いて,敵の例を生成するブラックボックス攻撃であるBAEを提案する。 BAEは, 文法性やセマンティック・コヒーレンスを向上した逆例を生成することに加えて, より強力な攻撃を行うことを示す。
論文参考訳（メタデータ） (2020-04-04T16:25:48Z)
Generating Natural Language Adversarial Examples on a Large Scale with Generative Models [41.85006993382117]
生成モデルを用いて,テキストをスクラッチから効率的に生成するエンド・ツー・エンド・ソリューションを提案する。具体的には,条件付き変分オートエンコーダを訓練し,さらに逆転損失を加えて,逆転例の生成を誘導する。敵対的テキストの妥当性を向上させるために,識別器と生成的敵対的ネットワークの訓練枠組みを利用する。
論文参考訳（メタデータ） (2020-03-10T03:21:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。