論文の概要: Undetectable Watermarks for Language Models
- arxiv url: http://arxiv.org/abs/2306.09194v1
- Date: Thu, 25 May 2023 02:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 12:10:51.069498
- Title: Undetectable Watermarks for Language Models
- Title(参考訳): 言語モデルのための検出不能な透かし
- Authors: Miranda Christ, Sam Gunn, Or Zamir
- Abstract要約: 本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
- 参考スコア(独自算出の注目度): 1.347733333991357
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in the capabilities of large language models such as GPT-4
have spurred increasing concern about our ability to detect AI-generated text.
Prior works have suggested methods of embedding watermarks in model outputs, by
noticeably altering the output distribution. We ask: Is it possible to
introduce a watermark without incurring any detectable change to the output
distribution?
To this end we introduce a cryptographically-inspired notion of undetectable
watermarks for language models. That is, watermarks can be detected only with
the knowledge of a secret key; without the secret key, it is computationally
intractable to distinguish watermarked outputs from those of the original
model. In particular, it is impossible for a user to observe any degradation in
the quality of the text. Crucially, watermarks should remain undetectable even
when the user is allowed to adaptively query the model with arbitrarily chosen
prompts. We construct undetectable watermarks based on the existence of one-way
functions, a standard assumption in cryptography.
- Abstract(参考訳): GPT-4のような大規模言語モデルの能力の最近の進歩は、AI生成テキストを検出する能力に懸念を喚起している。
先行研究では、出力分布を顕著に変化させることで、モデル出力に透かしを埋め込む方法が提案されている。
出力分布に検出可能な変更を加えることなく、透かしを導入することは可能ですか?
この目的のために,言語モデルに対する検出不能な透かしの概念を導入する。
すなわち、透かしは秘密鍵の知識によってのみ検出でき、秘密鍵がなければ、透かしと元のモデルの出力とを区別することができる。
特に、ユーザーがテキストの品質の劣化を観察することは不可能である。
重要なことは、ユーザーが任意に選択されたプロンプトでモデルを適応的にクエリすることを許された場合でも、透かしは検出できない。
暗号における標準仮定であるワンウェイ関数の存在に基づいて、検出不能な透かしを構築する。
関連論文リスト
- Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - On the Learnability of Watermarks for Language Models [88.45782629821468]
私たちは、デコードベースの透かしを利用する教師モデルのように振る舞うように学生モデルを訓練する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - On the Reliability of Watermarks for Large Language Models [50.01830399815094]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Tree-Ring Watermarks: Fingerprints for Diffusion Images that are
Invisible and Robust [55.91987293510401]
生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。
本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。
私たちの透かしは画像空間に意味的に隠れており、現在デプロイされている透かしよりもはるかに堅牢です。
論文 参考訳(メタデータ) (2023-05-31T17:00:31Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - A Watermark for Large Language Models [60.66466446340074]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。