論文の概要: Undetectable Watermarks for Language Models
- arxiv url: http://arxiv.org/abs/2306.09194v1
- Date: Thu, 25 May 2023 02:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 12:10:51.069498
- Title: Undetectable Watermarks for Language Models
- Title(参考訳): 言語モデルのための検出不能な透かし
- Authors: Miranda Christ, Sam Gunn, Or Zamir
- Abstract要約: 本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
- 参考スコア(独自算出の注目度): 1.347733333991357
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in the capabilities of large language models such as GPT-4
have spurred increasing concern about our ability to detect AI-generated text.
Prior works have suggested methods of embedding watermarks in model outputs, by
noticeably altering the output distribution. We ask: Is it possible to
introduce a watermark without incurring any detectable change to the output
distribution?
To this end we introduce a cryptographically-inspired notion of undetectable
watermarks for language models. That is, watermarks can be detected only with
the knowledge of a secret key; without the secret key, it is computationally
intractable to distinguish watermarked outputs from those of the original
model. In particular, it is impossible for a user to observe any degradation in
the quality of the text. Crucially, watermarks should remain undetectable even
when the user is allowed to adaptively query the model with arbitrarily chosen
prompts. We construct undetectable watermarks based on the existence of one-way
functions, a standard assumption in cryptography.
- Abstract(参考訳): GPT-4のような大規模言語モデルの能力の最近の進歩は、AI生成テキストを検出する能力に懸念を喚起している。
先行研究では、出力分布を顕著に変化させることで、モデル出力に透かしを埋め込む方法が提案されている。
出力分布に検出可能な変更を加えることなく、透かしを導入することは可能ですか?
この目的のために,言語モデルに対する検出不能な透かしの概念を導入する。
すなわち、透かしは秘密鍵の知識によってのみ検出でき、秘密鍵がなければ、透かしと元のモデルの出力とを区別することができる。
特に、ユーザーがテキストの品質の劣化を観察することは不可能である。
重要なことは、ユーザーが任意に選択されたプロンプトでモデルを適応的にクエリすることを許された場合でも、透かしは検出できない。
暗号における標準仮定であるワンウェイ関数の存在に基づいて、検出不能な透かしを構築する。
関連論文リスト
- Watermarking Language Models for Many Adaptive Users [47.90822587139056]
証明可能な保証付き言語モデルの透かし方式について検討する。
モデル生成テキストを個々のユーザに対してトレース可能なマルチユーザ透かしを導入する。
検出不能なChrist, Gunn, Zamir (2024) のゼロビットスキームが適応的に堅牢であることを証明する。
論文 参考訳(メタデータ) (2024-05-17T22:15:30Z) - Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Tree-Ring Watermarks: Fingerprints for Diffusion Images that are
Invisible and Robust [55.91987293510401]
生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。
本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。
私たちの透かしは画像空間に意味的に隠れており、現在デプロイされている透かしよりもはるかに堅牢です。
論文 参考訳(メタデータ) (2023-05-31T17:00:31Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。