Fugu-MT 論文翻訳(概要): GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick

論文の概要: GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick

arxiv url: http://arxiv.org/abs/2402.12948v3
Date: Tue, 28 May 2024 04:58:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 01:18:48.210528
Title: GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick
Title（参考訳）: GumbelSoft: GumbelMax-trickによる多言語モデル透かし
Authors: Jiayi Fu, Xuandong Zhao, Ruihan Yang, Yuansen Zhang, Jiangjie Chen, Yanghua Xiao,
Abstract要約: 大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。デコードベースの透かし、特にGumbelMax-trickベースの透かし(GM透かし)は、機械生成テキストを保護するためのスタンドアウトソリューションである。我々は,新しいタイプのGM透かし,Logits-Addition透かし,およびその3つの変種を提案する。
参考スコア（独自算出の注目度）: 50.35069175236422
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) excellently generate human-like text, but also raise concerns about misuse in fake news and academic dishonesty. Decoding-based watermark, particularly the GumbelMax-trick-based watermark(GM watermark), is a standout solution for safeguarding machine-generated texts due to its notable detectability. However, GM watermark encounters a major challenge with generation diversity, always yielding identical outputs for the same prompt, negatively impacting generation diversity and user experience. To overcome this limitation, we propose a new type of GM watermark, the Logits-Addition watermark, and its three variants, specifically designed to enhance diversity. Among these, the GumbelSoft watermark (a softmax variant of the Logits-Addition watermark) demonstrates superior performance in high diversity settings, with its AUROC score outperforming those of the two alternative variants by 0.1 to 0.3 and surpassing other decoding-based watermarking methods by a minimum of 0.1.
Abstract（参考訳）: 大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。デコードベースの透かし、特にGumbelMax-trickベースの透かし(GM透かし)は、その顕著な検出性のために、機械生成テキストを保護するためのスタンドアウトソリューションである。しかし、GMの透かしは世代多様性において大きな課題に直面し、常に同じプロンプトに対して同じ出力を出力し、世代多様性とユーザエクスペリエンスに悪影響を及ぼす。この制限を克服するために,新しいタイプのGM透かし,Logits-Addition透かし,およびその3つの変種を提案する。このうち、GumbelSoftの透かし(Logits-Addition 透かしのソフトマックス版)は、高い多様性設定において優れた性能を示し、AUROCのスコアは2種類の変種のうち、0.1から0.3で、他の復号ベースの透かし法を0.1で上回っている。

関連論文リスト

Improved Unbiased Watermark for Large Language Models [59.00698153097887]
本稿では,非バイアスのマルチチャネル型透かしであるMCmarkを紹介する。 MCmarkは言語モデルの本来の分布を保存する。既存の非バイアスの透かしよりも検出性と堅牢性を大幅に改善する。
論文参考訳（メタデータ） (2025-02-16T21:02:36Z)
De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文参考訳（メタデータ） (2024-10-17T17:42:10Z)
PersonaMark: Personalized LLM watermarking for model protection and user attribution [20.2735173280022]
テキスト透かしは、AIが生成したテキストの検出とモデル保護の問題に対する有望な解決策として浮上している。本稿では,文書構造を透かし情報の隠蔽媒体として利用する新しいテキスト透かし手法であるペルソナマークを提案する。提案手法は,モデルの振舞いを最小限に抑えながら性能を保ち,透かし情報のあいまいな挿入を可能にし,強力な透かし認識能力を示す。
論文参考訳（メタデータ） (2024-09-15T14:10:01Z)
Watermark Smoothing Attacks against Language Models [40.02225709485305]
スムーシング・アタック(Smoothing Attack)は,新しい透かし除去法である。我々は、13ドルBから30ドルBまで、オープンソースのモデルに対する攻撃を検証する。
論文参考訳（メタデータ） (2024-07-19T11:04:54Z)
Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文参考訳（メタデータ） (2024-07-17T18:52:12Z)
Multi-Bit Distortion-Free Watermarking for Large Language Models [4.7381853007029475]
透かしの一部としてメタ情報の複数ビットを埋め込むことにより,既存のゼロビット歪みのない透かし法を拡張した。また,少ないビット誤り率で透かしから埋め込み情報を抽出する計算効率の良い復号器を開発した。
論文参考訳（メタデータ） (2024-02-26T14:01:34Z)
Adaptive Text Watermark for Large Language Models [8.100123266517299]
プロンプトやモデルの知識を必要とせずに、強力なセキュリティ、堅牢性、および透かしを検出する能力を維持しつつ、高品質な透かしテキストを生成することは困難である。本稿では,この問題に対処するための適応型透かし手法を提案する。
論文参考訳（メタデータ） (2024-01-25T03:57:12Z)
On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。モデルは、高い検出性で透かし付きテキストを生成することができる。
論文参考訳（メタデータ） (2023-12-07T17:41:44Z)
Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.025719866615333]
この研究は、画像やモデル透かしとは対照的に、出力透かし技術に焦点を当てている。品質、サイズ(透かしを検出するのに必要となるトークンの数)、抵抗の改ざんという3つの主要な指標に注目します。
論文参考訳（メタデータ） (2023-12-01T01:22:46Z)
Who Wrote this Code? Watermarking for Code Generation [53.24895162874416]
本稿では,機械生成テキストを検出するために,Entropy Thresholding (SWEET) を用いたSelective WatErmarkingを提案する。実験の結果,SWEETはコード品質を著しく向上し,すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-24T11:49:52Z)
A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。透かしはテキストの品質に無視できない影響で埋め込むことができる。言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文参考訳（メタデータ） (2023-01-24T18:52:59Z)
Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文参考訳（メタデータ） (2022-07-16T16:06:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。