論文の概要: Enhancing Watermarked Language Models to Identify Users
- arxiv url: http://arxiv.org/abs/2405.11109v1
- Date: Fri, 17 May 2024 22:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 19:27:00.768803
- Title: Enhancing Watermarked Language Models to Identify Users
- Title(参考訳): ユーザ識別のための透かし付き言語モデルの強化
- Authors: Aloni Cohen, Alexander Hoover, Gabe Schoenbach,
- Abstract要約: ゼロビット透かし言語モデルは、下層のモデルと区別できないテキストを生成する。
検出不能なゼロビット透かし方式からマルチユーザ透かし方式を構築する。
言語モデルのウォーターマーキングスキーム間での最初のブラックボックス削減です。
- 参考スコア(独自算出の注目度): 47.90822587139056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A zero-bit watermarked language model produces text that is indistinguishable from that of the underlying model, but which can be detected as machine-generated using a secret key. But merely detecting AI-generated spam, say, as watermarked may not prevent future abuses. If we could additionally trace the text to a spammer's API token, we could then cut off their access to the model. We introduce multi-user watermarks, which allow tracing model-generated text to individuals or to groups of colluding users. We construct multi-user watermarking schemes from undetectable zero-bit watermarking schemes. Importantly, our schemes provide both zero-bit and multi-user assurances at the same time: detecting shorter snippets as well as the original scheme and tracing longer excerpts to individuals. Along the way, we give a generic construction of a watermarking scheme that embeds long messages into generated text. Ours are the first black-box reductions between watermarking schemes for language models. A major challenge for black-box reductions is the lack of a unified abstraction for robustness -- that marked text is detectable after edits. Existing works give incomparable robustness guarantees, based on bespoke requirements on the language model's outputs and the users' edits. We introduce a new abstraction -- AEB-robustness -- to overcome this challenge. AEB-robustness provides that the watermark is detectable whenever the edited text "approximates enough blocks" of model-generated output. Specifying the robustness condition amounts to defining approximates, enough, and blocks. Using our new abstraction, we relate the robustness properties of our constructions to that of the underlying zero-bit scheme. Whereas prior works only guarantee robustness for a single text generated in response to a single prompt, our schemes are robust against adaptive prompting, a stronger adversarial model.
- Abstract(参考訳): ゼロビット透かし言語モデルは、基礎となるモデルと区別できないテキストを生成するが、シークレットキーを使用してマシン生成として検出できる。
しかし、透かしの付いたAIが生成するスパムを検知するだけでは、将来の乱用を防げないかもしれない。
さらに、テキストをスパムのAPIトークンにトレースできれば、モデルへのアクセスを遮断できるでしょう。
モデル生成したテキストを個人や衝突したユーザのグループにトレースするマルチユーザ透かしを導入する。
検出不能なゼロビット透かし方式からマルチユーザ透かし方式を構築する。
重要なことは、我々のスキームはゼロビットとマルチユーザー保証の両方を同時に提供し、短いスニペットとオリジナルのスキームを検知し、個人への長い抜粋をトレースする。
その過程で、長文を生成テキストに埋め込む透かしスキームの汎用的な構築について述べる。
言語モデルのウォーターマーキングスキーム間での最初のブラックボックス削減です。
ブラックボックス削減の大きな課題は、マークされたテキストが編集後に検出可能な、堅牢性のための統一された抽象化が欠如していることだ。既存の作業は、言語モデルの出力とユーザの編集に対する好ましくない要求に基づいて、互換性のない堅牢性を保証する。我々はこの課題を克服するために、新しい抽象化 -- AEB-robustness -- を導入している。
AEB-robustnessは、編集されたテキストがモデル生成出力の「十分なブロック」を承認するたびに、透かしを検出できる。
堅牢性条件を指定することは、近似、十分、ブロックを定義することにつながる。
新しい抽象化を用いることで、構造体のロバスト性と基礎となるゼロビットスキームのロバスト性を関連付ける。
事前の作業では、単一のプロンプトに応答して生成された1つのテキストに対してロバスト性しか保証されていないが、我々のスキームは適応的なプロンプトに対して堅牢である。
関連論文リスト
- Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.025719866615333]
この研究は、画像やモデル透かしとは対照的に、出力透かし技術に焦点を当てている。
品質、サイズ(透かしを検出するのに必要となるトークンの数)、抵抗の改ざんという3つの主要な指標に注目します。
論文 参考訳(メタデータ) (2023-12-01T01:22:46Z) - Advancing Beyond Identification: Multi-bit Watermark for Large Language Models [31.066140913513035]
機械生成テキストの識別を超えて,大規模言語モデルの誤用に対処する可能性を示す。
言語モデル生成中にトレーサブルなマルチビット情報を埋め込んだ位置アロケーションによるマルチビット透かしを提案する。
論文 参考訳(メタデータ) (2023-08-01T01:27:40Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Undetectable Watermarks for Language Models [1.347733333991357]
本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
論文 参考訳(メタデータ) (2023-05-25T02:57:16Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。