論文の概要: GumbelSoft: Diversified Language Model Watermarking via the
GumbelMax-trick
- arxiv url: http://arxiv.org/abs/2402.12948v1
- Date: Tue, 20 Feb 2024 12:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:33:15.103741
- Title: GumbelSoft: Diversified Language Model Watermarking via the
GumbelMax-trick
- Title(参考訳): GumbelSoft: GumbelMax-trickによる多言語モデル透かし
- Authors: Jiayi Fu, Xuandong Zhao, Ruihan Yang, Yuansen Zhang, Jiangjie Chen,
Yanghua Xiao
- Abstract要約: 大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。
デコードベースの透かし、特にGumbelMax-trickベースの透かし(GM透かし)は、機械生成テキストを保護するためのスタンドアウトソリューションである。
我々は,新しいタイプのGM透かし,Logits-Addition透かし,およびその3つの変種を提案する。
- 参考スコア(独自算出の注目度): 52.87556347528717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excellently generate human-like text, but also
raise concerns about misuse in fake news and academic dishonesty.
Decoding-based watermark, particularly the GumbelMax-trick-based watermark(GM
watermark), is a standout solution for safeguarding machine-generated texts due
to its notable detectability. However, GM watermark encounters a major
challenge with generation diversity, always yielding identical outputs for the
same prompt, negatively impacting generation diversity and user experience. To
overcome this limitation, we propose a new type of GM watermark, the
Logits-Addition watermark, and its three variants, specifically designed to
enhance diversity. Among these, the GumbelSoft watermark (a softmax variant of
the Logits-Addition watermark) demonstrates superior performance in high
diversity settings, with its AUROC score outperforming those of the two
alternative variants by 0.1 to 0.3 and surpassing other decoding-based
watermarking methods by a minimum of 0.1.
- Abstract(参考訳): 大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。
デコードベースのウォーターマーク、特にgumbelmax-trick-based watermark(gm watermark)は、顕著な検出性のため、マシン生成テキストを保護するためのスタンアウトソリューションである。
しかし、gmのウォーターマークは世代多様性において大きな課題に遭遇し、常に同じプロンプトで同じ出力を生成し、世代多様性とユーザエクスペリエンスに悪影響を及ぼす。
この制限を克服するために,gmウォーターマークの新しいタイプ,logits-additionウォーターマーク,およびその3つの変種を提案する。
このうち、gumbelsoft watermark(logits-addition watermarkのソフトマックス変種)は、aurocスコアが0.1から0.3の2つの異なる変種を上回り、デコードベースのウォーターマーキング法を最小0.1に上回り、高い多様性設定で優れた性能を示している。
関連論文リスト
- De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - PersonaMark: Personalized LLM watermarking for model protection and user attribution [20.2735173280022]
テキスト透かしは、AIが生成したテキストの検出とモデル保護の問題に対する有望な解決策として浮上している。
本稿では,文書構造を透かし情報の隠蔽媒体として利用する新しいテキスト透かし手法であるペルソナマークを提案する。
提案手法は,モデルの振舞いを最小限に抑えながら性能を保ち,透かし情報のあいまいな挿入を可能にし,強力な透かし認識能力を示す。
論文 参考訳(メタデータ) (2024-09-15T14:10:01Z) - Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。
また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文 参考訳(メタデータ) (2024-02-26T14:01:34Z) - Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。
本稿では,この問題に対処するための適応型透かし手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T03:57:12Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.025719866615333]
この研究は、画像やモデル透かしとは対照的に、出力透かし技術に焦点を当てている。
品質、サイズ(透かしを検出するのに必要となるトークンの数)、抵抗の改ざんという3つの主要な指標に注目します。
論文 参考訳(メタデータ) (2023-12-01T01:22:46Z) - Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。
実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-24T11:49:52Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。