論文の概要: Watermarking Text Generated by Black-Box Language Models
- arxiv url: http://arxiv.org/abs/2305.08883v1
- Date: Sun, 14 May 2023 07:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 17:39:58.775115
- Title: Watermarking Text Generated by Black-Box Language Models
- Title(参考訳): ブラックボックス言語モデルによるテキストの透かし
- Authors: Xi Yang, Kejiang Chen, Weiming Zhang, Chang Liu, Yuang Qi, Jie Zhang,
Han Fang, Nenghai Yu
- Abstract要約: テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
- 参考スコア(独自算出の注目度): 103.52541557216766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs now exhibit human-like skills in various fields, leading to worries
about misuse. Thus, detecting generated text is crucial. However, passive
detection methods are stuck in domain specificity and limited adversarial
robustness. To achieve reliable detection, a watermark-based method was
proposed for white-box LLMs, allowing them to embed watermarks during text
generation. The method involves randomly dividing the model vocabulary to
obtain a special list and adjusting the probability distribution to promote the
selection of words in the list. A detection algorithm aware of the list can
identify the watermarked text. However, this method is not applicable in many
real-world scenarios where only black-box language models are available. For
instance, third-parties that develop API-based vertical applications cannot
watermark text themselves because API providers only supply generated text and
withhold probability distributions to shield their commercial interests. To
allow third-parties to autonomously inject watermarks into generated text, we
develop a watermarking framework for black-box language model usage scenarios.
Specifically, we first define a binary encoding function to compute a random
binary encoding corresponding to a word. The encodings computed for
non-watermarked text conform to a Bernoulli distribution, wherein the
probability of a word representing bit-1 being approximately 0.5. To inject a
watermark, we alter the distribution by selectively replacing words
representing bit-0 with context-based synonyms that represent bit-1. A
statistical test is then used to identify the watermark. Experiments
demonstrate the effectiveness of our method on both Chinese and English
datasets. Furthermore, results under re-translation, polishing, word deletion,
and synonym substitution attacks reveal that it is arduous to remove the
watermark without compromising the original semantics.
- Abstract(参考訳): 現在、LLMは様々な分野で人間のようなスキルを示しており、誤用を心配している。
したがって、生成されたテキストの検出が不可欠である。
しかし, 受動的検出手法は, 領域特異性と限られた対向性に留まっている。
テキスト生成時に透かしを埋め込むことが可能なホワイトボックスLCMに対して,透かしベースの手法が提案された。
この方法は、モデル語彙をランダムに分割して特殊リストを取得し、確率分布を調整し、リスト内の単語の選択を促進する。
リストを認識する検出アルゴリズムは、透かし付きテキストを識別することができる。
しかし、この方法はブラックボックス言語モデルのみが利用可能な現実世界のシナリオの多くでは適用できない。
例えば、APIベースの垂直アプリケーションを開発するサードパーティは、生成したテキストのみを供給し、商業的利益を保護するために確率分布を保持するため、テキスト自体をウォーターマークすることはできない。
サードパーティが生成したテキストに自動的に透かしを注入できるようにするために,ブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発した。
具体的には、まず単語に対応するランダムなバイナリエンコーディングを計算するバイナリエンコーディング関数を定義する。
非透かしテキストで計算された符号化はベルヌーイ分布に準拠し、ビット-1を表す単語の確率は約0.5である。
透かしを注入するために、ビット0を表す単語を、ビット1を表す文脈に基づく同義語に選択的に置き換えることで、分布を変化させる。
その後、統計検査によって透かしを識別する。
実験により,中国語と英語のデータセットにおける本手法の有効性が実証された。
さらに, 再翻訳, 研磨, 単語削除, 同義語置換攻撃による結果から, 本来の意味論を損なうことなく, 透かしを除去することが困難であることが明らかとなった。
関連論文リスト
- Segmenting Watermarked Texts From Language Models [1.4103505579327706]
この研究は、信頼できないサードパーティユーザーが信頼できる言語モデル(LLM)プロバイダにプロンプトを送信し、透かしでテキストを生成するシナリオに焦点を当てる。
この設定により、ユーザがそれを公開すれば、ディテクターが後でテキストのソースを識別できるようになる。
本稿では,出版されたテキストを透かしと非透かしのサブ文字列に分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T02:05:10Z) - Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Undetectable Watermarks for Language Models [1.347733333991357]
本稿では,言語モデルに対する検出不能な透かしの概念を紹介する。
透かしは秘密鍵の知識でのみ検出できます
一方向関数の存在に基づいて検出不能な透かしを構築する。
論文 参考訳(メタデータ) (2023-05-25T02:57:16Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。