論文の概要: A Watermark for Large Language Models
- arxiv url: http://arxiv.org/abs/2301.10226v1
- Date: Tue, 24 Jan 2023 18:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:41:01.893842
- Title: A Watermark for Large Language Models
- Title(参考訳): 大規模言語モデルのための透かし
- Authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers,
Tom Goldstein
- Abstract要約: 本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できる影響で埋め込むことができ、言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
- 参考スコア(独自算出の注目度): 60.66466446340074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Potential harms of large language models can be mitigated by watermarking
model output, i.e., embedding signals into generated text that are invisible to
humans but algorithmically detectable from a short span of tokens. We propose a
watermarking framework for proprietary language models. The watermark can be
embedded with negligible impact on text quality, and can be detected using an
efficient open-source algorithm without access to the language model API or
parameters. The watermark works by selecting a randomized set of whitelist
tokens before a word is generated, and then softly promoting use of whitelist
tokens during sampling. We propose a statistical test for detecting the
watermark with interpretable p-values, and derive an information-theoretic
framework for analyzing the sensitivity of the watermark. We test the watermark
using a multi-billion parameter model from the Open Pretrained Transformer
(OPT) family, and discuss robustness and security.
- Abstract(参考訳): 大規模な言語モデルの潜在的な害は、モデルの出力、例えば、人間の目に見えないが短いトークンからアルゴリズムで検出可能な生成されたテキストに信号を埋め込むことによって軽減できる。
プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響を与え、言語モデルapiやパラメータにアクセスせずに、効率的なオープンソースアルゴリズムを使って検出することができる。
ウォーターマークは、単語が生成される前にランダム化されたホワイトリストトークンのセットを選択し、サンプリング中にホワイトリストトークンの使用をソフトに促進する。
我々は,解釈可能なp値で透かしを検出する統計的テストを提案し,透かしの感度を解析するための情報理論の枠組みを導出する。
我々は,Open Pretrained Transformer (OPT) ファミリーのマルチビリオンパラメータモデルを用いて透かしを検証し,堅牢性とセキュリティについて議論する。
関連論文リスト
- Watermarking Language Models for Many Adaptive Users [47.90822587139056]
証明可能な保証付き言語モデルの透かし方式について検討する。
モデル生成テキストを個々のユーザに対してトレース可能なマルチユーザ透かしを導入する。
検出不能なChrist, Gunn, Zamir (2024) のゼロビットスキームが適応的に堅牢であることを証明する。
論文 参考訳(メタデータ) (2024-05-17T22:15:30Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.025719866615333]
この研究は、画像やモデル透かしとは対照的に、出力透かし技術に焦点を当てている。
品質、サイズ(透かしを検出するのに必要となるトークンの数)、抵抗の改ざんという3つの主要な指標に注目します。
論文 参考訳(メタデータ) (2023-12-01T01:22:46Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - An Unforgeable Publicly Verifiable Watermark for Large Language Models [84.2805275589553]
現在の透かし検出アルゴリズムは、透かし生成プロセスで使用される秘密鍵を必要としており、公開検出中にセキュリティ違反や偽造の影響を受ける。
両段階で同じキーを使用するのではなく、2つの異なるニューラルネットワークを用いて透かしの生成と検出を行う。
論文 参考訳(メタデータ) (2023-07-30T13:43:27Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Undetectable Watermarks for Language Models [1.347733333991357]
本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
論文 参考訳(メタデータ) (2023-05-25T02:57:16Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。