論文の概要: Robust Distortion-free Watermarks for Language Models
- arxiv url: http://arxiv.org/abs/2307.15593v1
- Date: Fri, 28 Jul 2023 14:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 12:12:29.570741
- Title: Robust Distortion-free Watermarks for Language Models
- Title(参考訳): 言語モデルに対するロバストな歪みのない透かし
- Authors: Rohith Kuditipudi and John Thickstun and Tatsunori Hashimoto and Percy
Liang
- Abstract要約: 本稿では,自動回帰言語モデルからテキストに透かしを植え付ける手法を提案する。
言語モデルから乱数列をサンプルにマッピングすることで、透かし付きテキストを生成する。
- 参考スコア(独自算出の注目度): 92.53676569646262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a methodology for planting watermarks in text from an
autoregressive language model that are robust to perturbations without changing
the distribution over text up to a certain maximum generation budget. We
generate watermarked text by mapping a sequence of random numbers -- which we
compute using a randomized watermark key -- to a sample from the language
model. To detect watermarked text, any party who knows the key can align the
text to the random number sequence. We instantiate our watermark methodology
with two sampling schemes: inverse transform sampling and exponential minimum
sampling. We apply these watermarks to three language models -- OPT-1.3B,
LLaMA-7B and Alpaca-7B -- to experimentally validate their statistical power
and robustness to various paraphrasing attacks. Notably, for both the OPT-1.3B
and LLaMA-7B models, we find we can reliably detect watermarked text ($p \leq
0.01$) from $35$ tokens even after corrupting between $40$-$50$\% of the tokens
via random edits (i.e., substitutions, insertions or deletions). For the
Alpaca-7B model, we conduct a case study on the feasibility of watermarking
responses to typical user instructions. Due to the lower entropy of the
responses, detection is more difficult: around $25\%$ of the responses -- whose
median length is around $100$ tokens -- are detectable with $p \leq 0.01$, and
the watermark is also less robust to certain automated paraphrasing attacks we
implement.
- Abstract(参考訳): 本稿では,テキスト上の分布を最大生成予算に変化させることなく,摂動に頑健な自動回帰言語モデルからテキストに透かしを植え付ける手法を提案する。
我々は、ランダム化された透かしキーを用いて計算するランダム数の列を言語モデルからのサンプルにマッピングすることで、透かし付きテキストを生成する。
透かし付きテキストを検出するには、鍵を知っている任意の当事者がランダム数列にテキストを合わせることができる。
ウォーターマーク法を逆変換サンプリングと指数最小サンプリングの2つのサンプリングスキームでインスタンス化する。
我々はこれらの透かしをOPT-1.3B、LLaMA-7B、Alpaca-7Bの3つの言語モデルに適用し、様々なパラフレーズ攻撃に対する統計的パワーとロバスト性を実験的に検証する。
特に、OPT-1.3B と LLaMA-7B のモデルでは、ランダムな編集(置換、挿入、削除など)によってトークンの 40$-$50$\% を破損した後でも、$35$トークンから確実にウォーターマークされたテキスト(p \leq 0.01$)を検出できる。
Alpaca-7Bモデルでは、典型的なユーザ指示に対する透かし応答の実現可能性についてケーススタディを行う。
応答のエントロピーが低くなっているため、検出はより困難である: 平均的な応答の長さが約100ドルである約25\%$のレスポンスは、$p \leq 0.01$で検出可能であり、ウォーターマークは、我々が実装している特定の自動パラフレージング攻撃に対して頑健ではない。
関連論文リスト
- Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。
この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。
提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文 参考訳(メタデータ) (2024-10-09T04:49:03Z) - Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.025719866615333]
この研究は、画像やモデル透かしとは対照的に、出力透かし技術に焦点を当てている。
品質、サイズ(透かしを検出するのに必要となるトークンの数)、抵抗の改ざんという3つの主要な指標に注目します。
論文 参考訳(メタデータ) (2023-12-01T01:22:46Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。