論文の概要: Provably Robust Multi-bit Watermarking for AI-generated Text via Error Correction Code
- arxiv url: http://arxiv.org/abs/2401.16820v2
- Date: Tue, 16 Apr 2024 02:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:15:44.750235
- Title: Provably Robust Multi-bit Watermarking for AI-generated Text via Error Correction Code
- Title(参考訳): 誤り訂正符号によるAI生成テキストのロバストなマルチビット透かし
- Authors: Wenjie Qu, Dong Yin, Zixin He, Wei Zou, Tianyang Tao, Jinyuan Jia, Jiaheng Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する能力のために広くデプロイされている。
偽ニュースやフィッシングメールなど、偽のコンテンツを作るために犯罪者に誤用される可能性がある。
透かしはLLMの誤用を軽減する重要なテクニックであり、透かしをテキストに埋め込む。
- 参考スコア(独自算出の注目度): 39.96262132464419
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have been widely deployed for their remarkable capability to generate texts resembling human language. However, they could be misused by criminals to create deceptive content, such as fake news and phishing emails, which raises ethical concerns. Watermarking is a key technique to mitigate the misuse of LLMs, which embeds a watermark (e.g., a bit string) into a text generated by a LLM. Consequently, this enables the detection of texts generated by a LLM as well as the tracing of generated texts to a specific user. The major limitation of existing watermark techniques is that they cannot accurately or efficiently extract the watermark from a text, especially when the watermark is a long bit string. This key limitation impedes their deployment for real-world applications, e.g., tracing generated texts to a specific user. This work introduces a novel watermarking method for LLM-generated text grounded in \textbf{error-correction codes} to address this challenge. We provide strong theoretical analysis, demonstrating that under bounded adversarial word/token edits (insertion, deletion, and substitution), our method can correctly extract watermarks, offering a provable robustness guarantee. This breakthrough is also evidenced by our extensive experimental results. The experiments show that our method substantially outperforms existing baselines in both accuracy and robustness on benchmark datasets. For instance, when embedding a bit string of length 12 into a 200-token generated text, our approach attains an impressive match rate of $98.4\%$, surpassing the performance of Yoo et al. (state-of-the-art baseline) at $85.6\%$. When subjected to a copy-paste attack involving the injection of 50 tokens to generated texts with 200 words, our method maintains a substantial match rate of $90.8\%$, while the match rate of Yoo et al. diminishes to below $65\%$.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の言語に似たテキストを生成する優れた能力のために広くデプロイされている。
しかし、犯罪者によって偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために誤用され、倫理的懸念を引き起こす可能性がある。
透かしは、LLMが生成したテキストに透かし(eg, a bit string)を埋め込むLLMの誤用を軽減するための重要なテクニックである。
これにより、LCMが生成したテキストの検出や、生成されたテキストの特定のユーザへのトレースが可能になる。
既存の透かし技法の最大の制限は、特に透かしが長い文字列の場合、テキストから正確に効率よく透かしを抽出できないことである。
このキー制限は、生成されたテキストを特定のユーザにトレースするなど、現実世界のアプリケーションへのデプロイを妨げます。
本研究は,この課題に対処するために,textbf{error-correction codes} をベースとした LLM 生成テキストに対する新しい透かし手法を提案する。
提案手法は, 対訳語/token編集(挿入, 削除, 置換)により, 透かしを正しく抽出し, 証明可能な頑健性を保証する。
このブレークスルーは、我々の広範な実験結果からも証明されている。
実験の結果,提案手法は,ベンチマークデータセットの精度とロバスト性の両方において,既存のベースラインを大幅に上回っていることがわかった。
例えば、長さ12のビット列を200トンのテキストに埋め込む場合、我々のアプローチは9,8.4 %$で、Yoo et al(最先端のベースライン)のパフォーマンスを85.6 %$で上回ります。
200語で生成したテキストに50個のトークンを注入するコピーペースト攻撃を受けると,Yoo et al のマッチングレートが 65 % 以下に低下するのに対して,本手法は 90.8 %$ の相当な一致率を維持する。
関連論文リスト
- SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation [72.10931780019297]
既存の透かしアルゴリズムはトークンレベルの設計のため、パラフレーズ攻撃に弱い。
局所性に敏感なハッシュ(LSH)に基づく頑健な文レベルのセマンティック透かしアルゴリズムSemStampを提案する。
実験結果から,本アルゴリズムは従来手法に比べて,従来手法よりも頑健であるだけでなく,生成品質の維持にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-06T03:33:42Z) - Necessary and Sufficient Watermark for Large Language Models [31.933103173481964]
本稿では,テキストの品質を劣化させることなく,生成されたテキストに透かしを挿入するための,必要かつ十分な透かし(NS-Watermark)を提案する。
NS-Watermarkは既存の透かしよりも自然なテキストを生成することができることを示す。
特に機械翻訳タスクでは、NS-Watermarkは既存の透かし法を最大30BLEUスコアで上回ることができる。
論文 参考訳(メタデータ) (2023-10-02T00:48:51Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。