論文の概要: Provably Robust Multi-bit Watermarking for AI-generated Text
- arxiv url: http://arxiv.org/abs/2401.16820v5
- Date: Tue, 28 Jan 2025 03:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 13:21:18.510266
- Title: Provably Robust Multi-bit Watermarking for AI-generated Text
- Title(参考訳): AI生成テキストに対する確率的ロバストなマルチビット透かし
- Authors: Wenjie Qu, Wengrui Zheng, Tianyang Tao, Dong Yin, Yanze Jiang, Zhihua Tian, Wei Zou, Jinyuan Jia, Jiaheng Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する顕著な能力を示した。
犯罪者が偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために悪用することもある。
ウォーターマーキングはこれらの懸念に対処するための重要なテクニックであり、メッセージをテキストに埋め込む。
- 参考スコア(独自算出の注目度): 37.21416140194606
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities of generating texts resembling human language. However, they can be misused by criminals to create deceptive content, such as fake news and phishing emails, which raises ethical concerns. Watermarking is a key technique to address these concerns, which embeds a message (e.g., a bit string) into a text generated by an LLM. By embedding the user ID (represented as a bit string) into generated texts, we can trace generated texts to the user, known as content source tracing. The major limitation of existing watermarking techniques is that they achieve sub-optimal performance for content source tracing in real-world scenarios. The reason is that they cannot accurately or efficiently extract a long message from a generated text. We aim to address the limitations. In this work, we introduce a new watermarking method for LLM-generated text grounded in pseudo-random segment assignment. We also propose multiple techniques to further enhance the robustness of our watermarking algorithm. We conduct extensive experiments to evaluate our method. Our experimental results show that our method substantially outperforms existing baselines in both accuracy and robustness on benchmark datasets. For instance, when embedding a message of length 20 into a 200-token generated text, our method achieves a match rate of $97.6\%$, while the state-of-the-art work Yoo et al. only achieves $49.2\%$. Additionally, we prove that our watermark can tolerate edits within an edit distance of 17 on average for each paragraph under the same setting.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する顕著な能力を示した。
しかし、犯罪者によって偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために誤用され、倫理的懸念を引き起こすことがある。
ウォーターマーキングはこれらの問題に対処するための重要なテクニックであり、メッセージ(例えば、ビット文字列)をLLMが生成したテキストに埋め込む。
ユーザID(ビット文字列として表現される)を生成されたテキストに埋め込むことで、生成されたテキストをユーザへトレースすることができる。
既存の透かし技術の主な制限は、実世界のシナリオにおけるコンテンツソーストレースの準最適性能を実現することである。
その理由は、生成されたテキストから長いメッセージを正確に効率よく抽出できないからである。
私たちはその制限に対処することを目指している。
本研究では,疑似ランダムセグメント代入に基づくLLM生成テキストの新しい透かし手法を提案する。
また,透かしアルゴリズムの堅牢性を高めるために,複数の手法を提案する。
提案手法を評価するため,広範囲な実験を行った。
提案手法は,ベンチマークデータセットの精度とロバスト性の両方において,既存のベースラインを大幅に上回ることを示す。
例えば、長さ20のメッセージを200トンのテキストに埋め込むと、マッチングレートは9,7.6\%、最先端のYoo et alは49.2\%である。
さらに,各段落の平均編集距離17の範囲内で同じ設定で編集を許容できることを示す。
関連論文リスト
- Segmenting Watermarked Texts From Language Models [1.4103505579327706]
この研究は、信頼できないサードパーティユーザーが信頼できる言語モデル(LLM)プロバイダにプロンプトを送信し、透かしでテキストを生成するシナリオに焦点を当てる。
この設定により、ユーザがそれを公開すれば、ディテクターが後でテキストのソースを識別できるようになる。
本稿では,出版されたテキストを透かしと非透かしのサブ文字列に分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T02:05:10Z) - I Know You Did Not Write That! A Sampling Based Watermarking Method for
Identifying Machine Generated Text [0.0]
機械生成テキストを検出するための新しい透かし手法を提案する。
我々の方法は生成されたテキストにユニークなパターンを埋め込む。
本稿では,透かしがテキスト品質にどのように影響するかを示し,提案手法を最先端の透かし法と比較する。
論文 参考訳(メタデータ) (2023-11-29T20:04:57Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Necessary and Sufficient Watermark for Large Language Models [31.933103173481964]
本稿では,テキストの品質を劣化させることなく,生成されたテキストに透かしを挿入するための,必要かつ十分な透かし(NS-Watermark)を提案する。
NS-Watermarkは既存の透かしよりも自然なテキストを生成することができることを示す。
特に機械翻訳タスクでは、NS-Watermarkは既存の透かし法を最大30BLEUスコアで上回ることができる。
論文 参考訳(メタデータ) (2023-10-02T00:48:51Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。