論文の概要: Improved Unbiased Watermark for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11268v1
- Date: Sun, 16 Feb 2025 21:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:46.080157
- Title: Improved Unbiased Watermark for Large Language Models
- Title(参考訳): 大規模言語モデルのためのアンバイアス型透かしの改良
- Authors: Ruibo Chen, Yihan Wu, Junfeng Guo, Heng Huang,
- Abstract要約: 本稿では,非バイアスのマルチチャネル型透かしであるMCmarkを紹介する。
MCmarkは言語モデルの本来の分布を保存する。
既存の非バイアスの透かしよりも検出性と堅牢性を大幅に改善する。
- 参考スコア(独自算出の注目度): 59.00698153097887
- License:
- Abstract: As artificial intelligence surpasses human capabilities in text generation, the necessity to authenticate the origins of AI-generated content has become paramount. Unbiased watermarks offer a powerful solution by embedding statistical signals into language model-generated text without distorting the quality. In this paper, we introduce MCmark, a family of unbiased, Multi-Channel-based watermarks. MCmark works by partitioning the model's vocabulary into segments and promoting token probabilities within a selected segment based on a watermark key. We demonstrate that MCmark not only preserves the original distribution of the language model but also offers significant improvements in detectability and robustness over existing unbiased watermarks. Our experiments with widely-used language models demonstrate an improvement in detectability of over 10% using MCmark, compared to existing state-of-the-art unbiased watermarks. This advancement underscores MCmark's potential in enhancing the practical application of watermarking in AI-generated texts.
- Abstract(参考訳): 人工知能はテキスト生成において人間の能力を上回るため、AI生成コンテンツの起源を認証する必要性が最重要になっている。
バイアスのない透かしは、品質を歪ませることなく、統計信号を言語モデル生成テキストに埋め込むことによって、強力なソリューションを提供する。
本稿では,非バイアスのマルチチャネル型透かしであるMCmarkを紹介する。
MCmarkは、モデルの語彙をセグメントに分割し、ウォーターマークキーに基づいて選択されたセグメント内でトークン確率を促進する。
我々は,MCmarkが言語モデルの本来の分布を保存するだけでなく,既存の非バイアスな透かしよりも検出性と堅牢性を大幅に向上することを示した。
広く使われている言語モデルを用いた実験では,既存の最先端の未バイアスな透かしと比較して,MCmarkを用いた検出率が10%以上向上していることが示されている。
この進歩は、AI生成テキストにおける透かしの実用的応用を強化するMCmarkの可能性を浮き彫りにした。
関連論文リスト
- Watermarking Language Models with Error Correcting Codes [39.77377710480125]
本稿では,誤り訂正符号を用いて統計的信号を符号化する透かしフレームワークを提案する。
提案手法は,ロバスト二元符号 (RBC) 透かしと呼ばれ,元の確率分布に比較して歪みは生じない。
私たちの経験的発見は、私たちの透かしは速く、強力で、堅牢であり、最先端のものと好意的に比較していることを示唆しています。
論文 参考訳(メタデータ) (2024-06-12T05:13:09Z) - GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick [50.35069175236422]
大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。
デコードベースの透かし、特にGumbelMax-trickベースの透かし(GM透かし)は、機械生成テキストを保護するためのスタンドアウトソリューションである。
我々は,新しいタイプのGM透かし,Logits-Addition透かし,およびその3つの変種を提案する。
論文 参考訳(メタデータ) (2024-02-20T12:05:47Z) - Mark My Words: Analyzing and Evaluating Language Model Watermarks [8.025719866615333]
この研究は、画像やモデル透かしとは対照的に、出力透かし技術に焦点を当てている。
品質、サイズ(透かしを検出するのに必要となるトークンの数)、抵抗の改ざんという3つの主要な指標に注目します。
論文 参考訳(メタデータ) (2023-12-01T01:22:46Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。