論文の概要: Publicly Detectable Watermarking for Language Models
- arxiv url: http://arxiv.org/abs/2310.18491v1
- Date: Fri, 27 Oct 2023 21:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:20:21.655476
- Title: Publicly Detectable Watermarking for Language Models
- Title(参考訳): 言語モデルのためのパブリック検出可能な透かし
- Authors: Jaiden Fairoze, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad
Mahmoody and Mingyuan Wang
- Abstract要約: パブリックな検出性や検証性を備えた言語モデルに対する最初の証明可能な透かし方式を構築した。
我々のプロトコルは,生成したテキストに統計信号を埋め込まない最初の透かし方式である。
- 参考スコア(独自算出の注目度): 48.024299441636245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We construct the first provable watermarking scheme for language models with
public detectability or verifiability: we use a private key for watermarking
and a public key for watermark detection. Our protocol is the first
watermarking scheme that does not embed a statistical signal in generated text.
Rather, we directly embed a publicly-verifiable cryptographic signature using a
form of rejection sampling. We show that our construction meets strong formal
security guarantees and preserves many desirable properties found in schemes in
the private-key watermarking setting. In particular, our watermarking scheme
retains distortion-freeness and model agnosticity. We implement our scheme and
make empirical measurements over open models in the 7B parameter range. Our
experiments suggest that our watermarking scheme meets our formal claims while
preserving text quality.
- Abstract(参考訳): 我々は,公的な検出性や検証性を備えた言語モデルに対する最初の証明可能な透かし方式を構築し,透かしの秘密鍵と透かし検出のための公開鍵を用いる。
我々のプロトコルは,生成したテキストに統計信号を埋め込まない最初の透かし方式である。
むしろ、リジェクションサンプリングの形式を用いて、公開検証可能な暗号署名を直接埋め込む。
提案手法は,厳密な形式的セキュリティ保証を満たし,秘密鍵透かし設定のスキームに見られる多くの望ましいプロパティを保存できることを示す。
特に,我々の透かし方式は歪み自由度とモデル非依存性を保っている。
提案手法を実装し、7Bパラメータ範囲のオープンモデル上で実験的な測定を行う。
我々の実験は,テキストの品質を維持しつつ,我々の公式な主張に合致することを示す。
関連論文リスト
- Proving membership in LLM pretraining data via data watermarks [23.12467573182206]
この研究は、ブラックボックスモデルアクセスのみで原則付き検出を可能にするために、データ透かしを使うことを提案する。
ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。
BLOOM-176Bのトレーニングデータから,少なくとも90回はハッシュを確実に検出できることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:49:27Z) - On the Learnability of Watermarks for Language Models [88.45782629821468]
私たちは、デコードベースの透かしを利用する教師モデルのように振る舞うように学生モデルを訓練する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - DiPmark: A Stealthy, Efficient and Resilient Watermark for Large
Language Models [71.49654786784713]
電子透かしのための分布保存型透かし(DiP)を提案する。
提案したDiPmarkは、透かし(ステルス)中の元のトークン分布を保存し、言語モデルAPIやウェイト(効率)にアクセスせずに検出可能であり、トークンの適度な変更(レジリエント)に対して堅牢である。
これは、コンテキストに基づいてユニークなtextiti.i.d.暗号を割り当てるハッシュ関数と組み合わさって、新しいreweight戦略を導入することで達成される。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Undetectable Watermarks for Language Models [1.347733333991357]
本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
論文 参考訳(メタデータ) (2023-05-25T02:57:16Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z) - A Watermark for Large Language Models [60.66466446340074]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。