論文の概要: A Watermark for Low-entropy and Unbiased Generation in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14604v2
- Date: Tue, 15 Oct 2024 20:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:11.158559
- Title: A Watermark for Low-entropy and Unbiased Generation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける低エントロピー・アンバイアスド生成のための透かし
- Authors: Minjia Mao, Dongjun Wei, Zeyu Chen, Xiao Fang, Michael Chau,
- Abstract要約: 本研究は,これらの問題に対処可能な透かしであるサンプリング・ワン・アクセプティング(STA-1)手法を提案する。
低エントロピーのシナリオでは、不偏の透かしは、透かし強度と不満足な出力のリスクとのトレードオフに直面している。
低エントロピーデータセットと高エントロピーデータセットの両方の実験結果は、STA-1が既存の非バイアスウォーターマークに匹敵するテキスト品質と透かし強度を達成することを示した。
- 参考スコア(独自算出の注目度): 6.505831742654826
- License:
- Abstract: Recent advancements in large language models (LLMs) have highlighted the risk of misusing them, raising the need for accurate detection of LLM-generated content. In response, a viable solution is to inject imperceptible identifiers into LLMs, known as watermarks. Previous work demonstrates that unbiased watermarks ensure unforgeability and preserve text quality by maintaining the expectation of the LLM output probability distribution. However, previous unbiased watermarking methods suffer from one or more of the following issues: (1) requiring access to white-box LLMs during detection, (2) incurring long detection time, (3) being not robust against simple watermarking attacks, (4) failing to provide statistical guarantees for the type II error of watermark detection, and (5) being not statistically unbiased for low-entropy scenarios, which hinder their deployment in practice. This study proposes the Sampling One Then Accepting (STA-1) method, a watermark that can address all of these issues. Moreover, we discuss the tradeoff between watermark strength and text quality for unbiased watermarks. We show that in low-entropy scenarios, unbiased watermarks face a tradeoff between watermark strength and the risk of unsatisfactory outputs. Experimental results on both low-entropy and high-entropy datasets demonstrate that STA-1 achieves text quality and watermark strength comparable to existing unbiased watermarks, with a low risk of unsatisfactory outputs. Implementation codes for this study are available online.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、それらを誤用する危険性を強調し、LLM生成コンテンツの正確な検出の必要性を高めている。
これに対し、有効な解決策は、認識不能な識別子をLLM(ウォーターマーク)に注入することである。
従来の研究は、LLM出力確率分布の期待を維持することにより、不偏の透かしが偽造性を確保し、テキスト品質を維持することを示した。
しかし, 従来の非バイアス付き透かし法は, 1) 検出中に白色箱LSMへのアクセスを必要とすること, (2) 検出時間が長いこと, (3) 単純な透かし攻撃に対して堅牢でないこと, (4) 透かし検出のII型誤差の統計的保証が得られないこと, (5) 低エントロピーシナリオでは統計的に偏りがなく, 実際の展開を妨げている。
本研究は,これらの問題に対処可能な透かしであるサンプリング・ワン・アクセプティング(STA-1)手法を提案する。
さらに, 透かし強度とテキスト品質のトレードオフについて検討した。
低エントロピーのシナリオでは、不偏の透かしは、透かし強度と不満足な出力のリスクとのトレードオフに直面している。
低エントロピーデータセットと高エントロピーデータセットの両方の実験結果は、STA-1が既存の非バイアスの透かしに匹敵するテキスト品質と透かし強度を達成し、不満足な出力のリスクが低いことを示した。
本研究の実施コードはオンラインで公開されている。
関連論文リスト
- Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - Distortion-free Watermarks are not Truly Distortion-free under Watermark Key Collisions [58.777395817878514]
言語モデル(LM)ウォーターマーキング技術は、統計信号をLM生成コンテンツに注入する。
歪みのない新しい透かし-β透かしを導入します。
実験結果から,β-透かしが鍵衝突時の分布バイアスを効果的に低減できることが確認された。
論文 参考訳(メタデータ) (2024-06-02T04:07:32Z) - Black-Box Detection of Language Model Watermarks [1.9374282535132377]
我々は,ブラックボックスクエリの限られた数だけを用いて,最も人気のある3つのウォーターマーキングスキーム群の存在を検出するための厳密な統計的テストを開発した。
以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-28T08:41:30Z) - Latent Watermark: Inject and Detect Watermarks in Latent Diffusion Space [7.082806239644562]
既存の手法は、画質と透かしの堅牢性のジレンマに直面している。
画像品質の優れた透かしは通常、ぼやけやJPEG圧縮のような攻撃に対して弱い堅牢性を持つ。
本稿では,潜伏拡散空間内の透かしを注入し,検出する潜伏透かしを提案する。
論文 参考訳(メタデータ) (2024-03-30T03:19:50Z) - Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models [48.19623266082828]
WaterBenchは、大規模言語モデル(LLM)における透かしの最初の包括的なベンチマークである。
LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し、3つの重要な要素を設計する。
オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-11-13T08:09:01Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。