論文の概要: On the Learnability of Watermarks for Language Models
- arxiv url: http://arxiv.org/abs/2312.04469v1
- Date: Thu, 7 Dec 2023 17:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:59:29.795386
- Title: On the Learnability of Watermarks for Language Models
- Title(参考訳): 言語モデルにおける透かしの学習性について
- Authors: Chenchen Gu, Xiang Lisa Li, Percy Liang, Tatsunori Hashimoto
- Abstract要約: 私たちは、デコードベースの透かしを利用する教師モデルのように振る舞うように学生モデルを訓練する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
- 参考スコア(独自算出の注目度): 88.45782629821468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking of language model outputs enables statistical detection of
model-generated text, which has many applications in the responsible deployment
of language models. Existing watermarking strategies operate by altering the
decoder of an existing language model, and the ability for a language model to
directly learn to generate the watermark would have significant implications
for the real-world deployment of watermarks. First, learned watermarks could be
used to build open models that naturally generate watermarked text, allowing
for open models to benefit from watermarking. Second, if watermarking is used
to determine the provenance of generated text, an adversary can hurt the
reputation of a victim model by spoofing its watermark and generating damaging
watermarked text. To investigate the learnability of watermarks, we propose
watermark distillation, which trains a student model to behave like a teacher
model that uses decoding-based watermarking. We test our approach on three
distinct decoding-based watermarking strategies and various hyperparameter
settings, finding that models can learn to generate watermarked text with high
detectability. We also find limitations to learnability, including the loss of
watermarking capabilities under fine-tuning on normal text and high sample
complexity when learning low-distortion watermarks.
- Abstract(参考訳): 言語モデル出力の透かしは、言語モデルの配置に多くの応用があるモデル生成テキストの統計的検出を可能にする。
既存の透かし戦略は、既存の言語モデルのデコーダを変更し、透かしを生成するために言語モデルを直接学習する能力は、透かしの実際の展開に重大な影響を与える。
まず、学習した透かしを使って、自然に透かしのテキストを生成するオープンモデルを構築することができる。
第二に、生成されたテキストの出所を決定するために透かしを用いると、敵は透かしを偽造し、有害な透かしを発生させることで、被害者モデルの評判を損なう可能性がある。
そこで本研究では,電子透かしを用いた教師モデルのように振る舞うように学習する透かし蒸留法を提案する。
提案手法は,3つの異なる復号型透かし戦略と様々なハイパーパラメータ設定で検証し,高い検出性で透かし付きテキストの生成を学習できることを示す。
また,テキストの微調整による透かし能力の喪失や,低歪み透かしを学習する際のサンプルの複雑さなど,学習可能性の制限も見いだす。
関連論文リスト
- Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - Watermark Smoothing Attacks against Language Models [40.02225709485305]
我々はスムースな攻撃を導入し、既存の透かし手法がテキストの小さな修正に対して堅牢でないことを示す。
我々の攻撃は幅広い透かし技術の基本的限界を明らかにしている。
論文 参考訳(メタデータ) (2024-07-19T11:04:54Z) - Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Undetectable Watermarks for Language Models [1.347733333991357]
本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
論文 参考訳(メタデータ) (2023-05-25T02:57:16Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。