論文の概要: On the Learnability of Watermarks for Language Models
- arxiv url: http://arxiv.org/abs/2312.04469v3
- Date: Thu, 2 May 2024 07:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 22:00:43.151051
- Title: On the Learnability of Watermarks for Language Models
- Title(参考訳): 言語モデルにおける透かしの学習性について
- Authors: Chenchen Gu, Xiang Lisa Li, Percy Liang, Tatsunori Hashimoto,
- Abstract要約: 言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
- 参考スコア(独自算出の注目度): 80.97358663708592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking of language model outputs enables statistical detection of model-generated text, which can mitigate harms and misuses of language models. Existing watermarking strategies operate by altering the decoder of an existing language model. In this paper, we ask whether language models can directly learn to generate watermarked text, which would have significant implications for the real-world deployment of watermarks. First, learned watermarks could be used to build open models that naturally generate watermarked text, enabling watermarking for open models, where users can control the decoding procedure. Second, if watermarking is used to determine the provenance of generated text, an adversary can hurt the reputation of a victim model by spoofing its watermark and generating damaging watermarked text. To investigate the learnability of watermarks, we propose watermark distillation, which trains a student model to behave like a teacher model that uses decoding-based watermarking. We test our approach on three decoding-based watermarking strategies and various hyperparameter settings, finding that models can learn to generate watermarked text with high detectability. We also find limitations to learnability, including the loss of watermarking capabilities under fine-tuning on normal text and high sample complexity when learning low-distortion watermarks.
- Abstract(参考訳): 言語モデル出力の透かしにより、モデル生成テキストの統計的検出が可能となり、言語モデルの害や誤用を軽減することができる。
既存のウォーターマーキング戦略は、既存の言語モデルのデコーダを変更することで機能する。
本稿では,実際の透かしの展開に重要な意味を持つ透かし文を生成するために,言語モデルが直接学習できるかどうかを問う。
まず、学習した透かしを使って、自然に透かしのテキストを生成するオープンモデルを構築することができる。
第二に、生成されたテキストの出所を決定するために透かしを用いると、敵は透かしを偽造し、有害な透かしを発生させることで、被害者モデルの評判を損なう可能性がある。
電子透かしを用いた電子透かしを用いた電子透かしによる電子透かしによる電子透かしによる電子透かしの学習性について検討するため,学生モデルに復号型透かしを用いた教師モデルとしての振る舞いを訓練する透かし蒸留法を提案する。
提案手法は,3つの復号型透かし戦略と様々なハイパーパラメータ設定で検証し,高い検出性で透かし付きテキストの生成を学習できることを見出した。
また,テキストの微調整による透かし能力の喪失や,低歪み透かしを学習する際のサンプルの複雑さなど,学習可能性の制限も見いだす。
関連論文リスト
- Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - Watermark Smoothing Attacks against Language Models [40.02225709485305]
我々はスムースな攻撃を導入し、既存の透かし手法がテキストの小さな修正に対して堅牢でないことを示す。
我々の攻撃は幅広い透かし技術の基本的限界を明らかにしている。
論文 参考訳(メタデータ) (2024-07-19T11:04:54Z) - Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Undetectable Watermarks for Language Models [1.347733333991357]
本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
論文 参考訳(メタデータ) (2023-05-25T02:57:16Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。