論文の概要: Mark My Words: Analyzing and Evaluating Language Model Watermarks
- arxiv url: http://arxiv.org/abs/2312.00273v1
- Date: Fri, 1 Dec 2023 01:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:03:51.183736
- Title: Mark My Words: Analyzing and Evaluating Language Model Watermarks
- Title(参考訳): Mark My Words: 言語モデル透かしの分析と評価
- Authors: Julien Piet, Chawin Sitawarin, Vivian Fang, Norman Mu, David Wagner
- Abstract要約: 本研究は,画像透かしとは対照的に,テキスト透かし技術に重点を置いている。
品質、サイズ(透かしを検出するのに必要なトークンの数など)、タンパー抵抗の3つの主要な指標に注目します。
- 参考スコア(独自算出の注目度): 8.610361087746718
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The capabilities of large language models have grown significantly in recent
years and so too have concerns about their misuse. In this context, the ability
to distinguish machine-generated text from human-authored content becomes
important. Prior works have proposed numerous schemes to watermark text, which
would benefit from a systematic evaluation framework. This work focuses on text
watermarking techniques - as opposed to image watermarks - and proposes a
comprehensive benchmark for them under different tasks as well as practical
attacks. We focus on three main metrics: quality, size (e.g. the number of
tokens needed to detect a watermark), and tamper-resistance. Current
watermarking techniques are good enough to be deployed: Kirchenbauer et al. can
watermark Llama2-7B-chat with no perceivable loss in quality in under 100
tokens, and with good tamper-resistance to simple attacks, regardless of
temperature. We argue that watermark indistinguishability is too strong a
requirement: schemes that slightly modify logit distributions outperform their
indistinguishable counterparts with no noticeable loss in generation quality.
We publicly release our benchmark.
- Abstract(参考訳): 近年,大規模言語モデルの能力は著しく向上しており,その誤用も懸念されている。
この文脈では、機械が生成したテキストと人間が作成したコンテンツとを区別する能力が重要となる。
先行研究は、体系的な評価フレームワークの恩恵を受けるテキストをウォーターマークするための多くのスキームを提案している。
本研究は,画像透かしとは対照的にテキスト透かし技術に焦点をあて,異なるタスクや実用的な攻撃に対する包括的なベンチマークを提案する。
品質、サイズ(透かしを検出するのに必要なトークンの数など)、タンパー抵抗の3つの主要な指標に注目します。
kirchenbauerらがllama2-7b-chatを透かし、100枚以下のトークンで品質が損なわれず、温度に関係なく単純な攻撃に対するタンパ抵抗も良い。
我々は、透かしの不明瞭さが要求の強大さを論じる:ロジット分布をわずかに修正するスキームは、生成品質を著しく損なうことなく、識別不能なものよりも優れています。
私たちはベンチマークを公開します。
関連論文リスト
- Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - De-mark: Watermark Removal in Large Language Models [59.00698153097887]
我々は、n-gramベースの透かしを効果的に除去するために設計された高度なフレームワークであるDe-markを紹介する。
提案手法は,透かしの強度を評価するために,ランダム選択探索と呼ばれる新しいクエリ手法を利用する。
論文 参考訳(メタデータ) (2024-10-17T17:42:10Z) - Less is More: Sparse Watermarking in LLMs with Enhanced Text Quality [27.592486717044455]
テキストに分散した生成されたトークンの小さなサブセットに透かしを適用することで、このトレードオフを緩和することを目的とした新しいタイプの透かしであるスパース透かしを提案する。
提案手法は,従来の透かし手法よりも高い品質のテキストを生成しつつ,高い検出性を実現することを示す。
論文 参考訳(メタデータ) (2024-07-17T18:52:12Z) - Watermarking Language Models for Many Adaptive Users [47.90822587139056]
証明可能な保証付き言語モデルの透かし方式について検討する。
モデル生成テキストを個々のユーザに対してトレース可能なマルチユーザ透かしを導入する。
検出不能なChrist, Gunn, Zamir (2024) のゼロビットスキームが適応的に堅牢であることを証明する。
論文 参考訳(メタデータ) (2024-05-17T22:15:30Z) - GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick [50.35069175236422]
大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。
デコードベースの透かし、特にGumbelMax-trickベースの透かし(GM透かし)は、機械生成テキストを保護するためのスタンドアウトソリューションである。
我々は,新しいタイプのGM透かし,Logits-Addition透かし,およびその3つの変種を提案する。
論文 参考訳(メタデータ) (2024-02-20T12:05:47Z) - On the Learnability of Watermarks for Language Models [80.97358663708592]
言語モデルが透かし付きテキストを生成するために直接学習できるかどうかを問う。
本稿では,教師モデルとして振舞う学生モデルを訓練する透かし蒸留法を提案する。
モデルは、高い検出性で透かし付きテキストを生成することができる。
論文 参考訳(メタデータ) (2023-12-07T17:41:44Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。