論文の概要: Provably Robust Multi-bit Watermarking for AI-generated Text via Error Correction Code
- arxiv url: http://arxiv.org/abs/2401.16820v1
- Date: Tue, 30 Jan 2024 08:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 12:17:56.120897
- Title: Provably Robust Multi-bit Watermarking for AI-generated Text via Error Correction Code
- Title(参考訳): 誤り訂正符号によるAI生成テキストのロバストなマルチビット透かし
- Authors: Wenjie Qu, Dong Yin, Zixin He, Wei Zou, Tianyang Tao, Jinyuan Jia, Jiaheng Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する能力のために広くデプロイされている。
偽ニュースやフィッシングメールなど、偽のコンテンツを作るために犯罪者に誤用される可能性がある。
透かしはLLMの誤用を軽減する重要なテクニックであり、透かしをテキストに埋め込む。
- 参考スコア(独自算出の注目度): 39.96262132464419
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have been widely deployed for their remarkable capability to generate texts resembling human language. However, they could be misused by criminals to create deceptive content, such as fake news and phishing emails, which raises ethical concerns. Watermarking is a key technique to mitigate the misuse of LLMs, which embeds a watermark (e.g., a bit string) into a text generated by a LLM. Consequently, this enables the detection of texts generated by a LLM as well as the tracing of generated texts to a specific user. The major limitation of existing watermark techniques is that they cannot accurately or efficiently extract the watermark from a text, especially when the watermark is a long bit string. This key limitation impedes their deployment for real-world applications, e.g., tracing generated texts to a specific user. This work introduces a novel watermarking method for LLM-generated text grounded in \textbf{error-correction codes} to address this challenge. We provide strong theoretical analysis, demonstrating that under bounded adversarial word/token edits (insertion, deletion, and substitution), our method can correctly extract watermarks, offering a provable robustness guarantee. This breakthrough is also evidenced by our extensive experimental results. The experiments show that our method substantially outperforms existing baselines in both accuracy and robustness on benchmark datasets. For instance, when embedding a bit string of length 12 into a 200-token generated text, our approach attains an impressive match rate of $98.4\%$, surpassing the performance of Yoo et al. (state-of-the-art baseline) at $85.6\%$. When subjected to a copy-paste attack involving the injection of 50 tokens to generated texts with 200 words, our method maintains a substantial match rate of $90.8\%$, while the match rate of Yoo et al. diminishes to below $65\%$.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の言語に似たテキストを生成する優れた能力のために広くデプロイされている。
しかし、犯罪者によって偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために誤用され、倫理的懸念を引き起こす可能性がある。
透かしは、LLMが生成したテキストに透かし(eg, a bit string)を埋め込むLLMの誤用を軽減するための重要なテクニックである。
これにより、LCMが生成したテキストの検出や、生成されたテキストの特定のユーザへのトレースが可能になる。
既存の透かし技法の最大の制限は、特に透かしが長い文字列の場合、テキストから正確に効率よく透かしを抽出できないことである。
このキー制限は、生成されたテキストを特定のユーザにトレースするなど、現実世界のアプリケーションへのデプロイを妨げます。
本研究は,この課題に対処するために,textbf{error-correction codes} をベースとした LLM 生成テキストに対する新しい透かし手法を提案する。
提案手法は, 対訳語/token編集(挿入, 削除, 置換)により, 透かしを正しく抽出し, 証明可能な頑健性を保証する。
このブレークスルーは、我々の広範な実験結果からも証明されている。
実験の結果,提案手法は,ベンチマークデータセットの精度とロバスト性の両方において,既存のベースラインを大幅に上回っていることがわかった。
例えば、長さ12のビット列を200トンのテキストに埋め込む場合、我々のアプローチは9,8.4 %$で、Yoo et al(最先端のベースライン)のパフォーマンスを85.6 %$で上回ります。
200語で生成したテキストに50個のトークンを注入するコピーペースト攻撃を受けると,Yoo et al のマッチングレートが 65 % 以下に低下するのに対して,本手法は 90.8 %$ の相当な一致率を維持する。
関連論文リスト
- Segmenting Watermarked Texts From Language Models [1.4103505579327706]
この研究は、信頼できないサードパーティユーザーが信頼できる言語モデル(LLM)プロバイダにプロンプトを送信し、透かしでテキストを生成するシナリオに焦点を当てる。
この設定により、ユーザがそれを公開すれば、ディテクターが後でテキストのソースを識別できるようになる。
本稿では,出版されたテキストを透かしと非透かしのサブ文字列に分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T02:05:10Z) - I Know You Did Not Write That! A Sampling Based Watermarking Method for
Identifying Machine Generated Text [0.0]
機械生成テキストを検出するための新しい透かし手法を提案する。
我々の方法は生成されたテキストにユニークなパターンを埋め込む。
本稿では,透かしがテキスト品質にどのように影響するかを示し,提案手法を最先端の透かし法と比較する。
論文 参考訳(メタデータ) (2023-11-29T20:04:57Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Necessary and Sufficient Watermark for Large Language Models [31.933103173481964]
本稿では,テキストの品質を劣化させることなく,生成されたテキストに透かしを挿入するための,必要かつ十分な透かし(NS-Watermark)を提案する。
NS-Watermarkは既存の透かしよりも自然なテキストを生成することができることを示す。
特に機械翻訳タスクでは、NS-Watermarkは既存の透かし法を最大30BLEUスコアで上回ることができる。
論文 参考訳(メタデータ) (2023-10-02T00:48:51Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。