論文の概要: A Watermark for Low-entropy and Unbiased Generation in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14604v1
- Date: Thu, 23 May 2024 14:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:45:33.877954
- Title: A Watermark for Low-entropy and Unbiased Generation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける低エントロピー・アンバイアスド生成のための透かし
- Authors: Minjia Mao, Dongjun Wei, Zeyu Chen, Xiao Fang, Michael Chau,
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、誤用リスクを浮き彫りにした。
本研究では, 透かし強度とテキスト品質の新たなトレードオフを提案する。
低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が既存の非バイアスウォーターマークに匹敵するテキスト品質と透かし強度を達成することを示した。
- 参考スコア(独自算出の注目度): 6.505831742654826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have highlighted the risk of misuse, raising concerns about accurately detecting LLM-generated content. A viable solution for the detection problem is to inject imperceptible identifiers into LLMs, known as watermarks. Previous work demonstrates that unbiased watermarks ensure unforgeability and preserve text quality by maintaining the expectation of the LLM output probability distribution. However, previous unbiased watermarking methods are impractical for local deployment because they rely on accesses to white-box LLMs and input prompts during detection. Moreover, these methods fail to provide statistical guarantees for the type II error of watermark detection. This study proposes the Sampling One Then Accepting (STA-1) method, an unbiased watermark that does not require access to LLMs nor prompts during detection and has statistical guarantees for the type II error. Moreover, we propose a novel tradeoff between watermark strength and text quality in unbiased watermarks. We show that in low-entropy scenarios, unbiased watermarks face a tradeoff between watermark strength and the risk of unsatisfactory outputs. Experimental results on low-entropy and high-entropy datasets demonstrate that STA-1 achieves text quality and watermark strength comparable to existing unbiased watermarks, with a low risk of unsatisfactory outputs. Implementation codes for this study are available online.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は誤用リスクを浮き彫りにしており、LLM生成コンテンツを正確に検出することへの懸念が高まっている。
検出問題の有効な解決策は、インセプタブル識別子をLLM(ウォーターマーク)に注入することである。
従来の研究は、LLM出力確率分布の期待を維持することにより、不偏の透かしが偽造性を確保し、テキスト品質を維持することを示した。
しかし、従来の非バイアスの透かし方式は、検出時にホワイトボックスのLCMや入力プロンプトへのアクセスに依存するため、ローカルデプロイメントでは実用的ではない。
さらに、これらの手法は、透かし検出のタイプIIエラーに対する統計的保証を提供していない。
本研究では,LLMへのアクセスを必要とせず,検出時にプロンプトも必要とせず,II型エラーを統計的に保証するSTA-1(Samping One Then Accepting)法を提案する。
さらに,不偏形透かしにおける透かし強度とテキスト品質の新たなトレードオフを提案する。
低エントロピーのシナリオでは、不偏の透かしは、透かし強度と不満足な出力のリスクとのトレードオフに直面している。
低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が既存の非バイアスの透かしに匹敵するテキスト品質と透かし強度を達成し、不満足な出力のリスクが低いことを示した。
本研究の実施コードはオンラインで公開されている。
関連論文リスト
- BiMarker: Enhancing Text Watermark Detection for Large Language Models with Bipolar Watermarks [19.689433249830465]
既存の透かし技術は、低い透かし強度と厳しい偽陽性要件に苦しむ。
ツールは生成されたテキストを正極と負極に分割し、追加の計算リソースを必要とせずに検出を強化する。
論文 参考訳(メタデータ) (2025-01-21T14:32:50Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Provably Robust Watermarks for Open-Source Language Models [5.509756888700397]
オープンソースの言語モデルに対する最初の透かし方式を紹介する。
我々のスキームはモデルのパラメータを変更することで機能するが、透かしはモデルの出力だけから検出できる。
おそらく驚くべきことに、我々の透かしは敵の知識に関する特定の仮定の下では取り除けないことを証明している。
論文 参考訳(メタデータ) (2024-10-24T15:44:34Z) - A Watermark for Order-Agnostic Language Models [55.89285889529492]
Pattern-markは、順序に依存しないLM用に特別に設計されたパターンベースの透かしフレームワークである。
我々は,高周波鍵パターンを持つ透かしキー列を生成するマルコフチェーン型透かし生成器を開発した。
タンパク質MPNN や CMLM などの順序に依存しない LM の評価では,パターンマークによる検出効率の向上,生成品質,ロバスト性などが示されている。
論文 参考訳(メタデータ) (2024-10-17T17:41:28Z) - Signal Watermark on Large Language Models [28.711745671275477]
本稿では,Large Language Models (LLMs) によるテキストに特定の透かしを埋め込む透かし手法を提案する。
この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。
提案手法は複数のLDMに対して実験的に検証され,高い検出精度を維持している。
論文 参考訳(メタデータ) (2024-10-09T04:49:03Z) - Can Watermarked LLMs be Identified by Users via Crafted Prompts? [55.460327393792156]
この研究は、透かし付き大言語モデル(LLM)の非受容性を初めて研究したものである。
我々は、よく設計されたプロンプトを通して透かしを検出する、Water-Probeと呼ばれる識別アルゴリズムを設計する。
実験の結果、ほとんどの主流の透かしアルゴリズムは、よく設計されたプロンプトと容易に識別できることがわかった。
論文 参考訳(メタデータ) (2024-10-04T06:01:27Z) - A Statistical Framework of Watermarks for Large Language Models: Pivot, Detection Efficiency and Optimal Rules [27.678152860666163]
我々は,透かしの統計的効率と強力な検出規則を推論するための枠組みを導入する。
枠組みに基づく透かしの最適検出規則を導出する。
論文 参考訳(メタデータ) (2024-04-01T17:03:41Z) - Towards Optimal Statistical Watermarking [95.46650092476372]
仮説テスト問題として定式化して統計的透かしを研究する。
我々の定式化の鍵は、出力トークンと拒絶領域の結合である。
一般仮説テスト設定において,UMP(Uniformly Most Powerful)の透かしを特徴付ける。
論文 参考訳(メタデータ) (2023-12-13T06:57:00Z) - Turning Your Strength into Watermark: Watermarking Large Language Model via Knowledge Injection [66.26348985345776]
本稿では,知識注入に基づく大規模言語モデル(LLM)のための新しい透かし手法を提案する。
透かし埋め込みの段階では、まず選択した知識に透かしを埋め込んで、透かし付き知識を得る。
透かし抽出段階では、疑わしいLLMを問うために、透かし付き知識に関する質問を設計する。
実験により, 透かし抽出の成功率は100%近くであり, 提案手法の有効性, 忠実性, ステルス性, 堅牢性を示した。
論文 参考訳(メタデータ) (2023-11-16T03:22:53Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Provable Robust Watermarking for AI-Generated Text [41.5510809722375]
We propose a robust and high-quality watermark method, Unigram-Watermark。
提案手法は,テキストの編集やパラフレージングに頑健で,生成品質,透かし検出の精度が保証されていることを実証する。
論文 参考訳(メタデータ) (2023-06-30T07:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。