論文の概要: Mark My Words: Analyzing and Evaluating Language Model Watermarks
- arxiv url: http://arxiv.org/abs/2312.00273v1
- Date: Fri, 1 Dec 2023 01:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:03:51.183736
- Title: Mark My Words: Analyzing and Evaluating Language Model Watermarks
- Title(参考訳): Mark My Words: 言語モデル透かしの分析と評価
- Authors: Julien Piet, Chawin Sitawarin, Vivian Fang, Norman Mu, David Wagner
- Abstract要約: 本研究は,画像透かしとは対照的に,テキスト透かし技術に重点を置いている。
品質、サイズ(透かしを検出するのに必要なトークンの数など)、タンパー抵抗の3つの主要な指標に注目します。
- 参考スコア(独自算出の注目度): 8.610361087746718
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The capabilities of large language models have grown significantly in recent
years and so too have concerns about their misuse. In this context, the ability
to distinguish machine-generated text from human-authored content becomes
important. Prior works have proposed numerous schemes to watermark text, which
would benefit from a systematic evaluation framework. This work focuses on text
watermarking techniques - as opposed to image watermarks - and proposes a
comprehensive benchmark for them under different tasks as well as practical
attacks. We focus on three main metrics: quality, size (e.g. the number of
tokens needed to detect a watermark), and tamper-resistance. Current
watermarking techniques are good enough to be deployed: Kirchenbauer et al. can
watermark Llama2-7B-chat with no perceivable loss in quality in under 100
tokens, and with good tamper-resistance to simple attacks, regardless of
temperature. We argue that watermark indistinguishability is too strong a
requirement: schemes that slightly modify logit distributions outperform their
indistinguishable counterparts with no noticeable loss in generation quality.
We publicly release our benchmark.
- Abstract(参考訳): 近年,大規模言語モデルの能力は著しく向上しており,その誤用も懸念されている。
この文脈では、機械が生成したテキストと人間が作成したコンテンツとを区別する能力が重要となる。
先行研究は、体系的な評価フレームワークの恩恵を受けるテキストをウォーターマークするための多くのスキームを提案している。
本研究は,画像透かしとは対照的にテキスト透かし技術に焦点をあて,異なるタスクや実用的な攻撃に対する包括的なベンチマークを提案する。
品質、サイズ(透かしを検出するのに必要なトークンの数など)、タンパー抵抗の3つの主要な指標に注目します。
kirchenbauerらがllama2-7b-chatを透かし、100枚以下のトークンで品質が損なわれず、温度に関係なく単純な攻撃に対するタンパ抵抗も良い。
我々は、透かしの不明瞭さが要求の強大さを論じる:ロジット分布をわずかに修正するスキームは、生成品質を著しく損なうことなく、識別不能なものよりも優れています。
私たちはベンチマークを公開します。
関連論文リスト
- Duwak: Dual Watermarks in Large Language Models [49.00264962860555]
トークン確率分布とサンプリングスキームの両方に二重秘密パターンを埋め込むことにより、透かしの効率と品質を向上させるために、Duwakを提案する。
Llama2でDuwakを4つの最先端透かし技術と組み合わせて評価した。
論文 参考訳(メタデータ) (2024-03-12T16:25:38Z) - GumbelSoft: Diversified Language Model Watermarking via the
GumbelMax-trick [52.87556347528717]
大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。
デコードベースの透かし、特にGumbelMax-trickベースの透かし(GM透かし)は、機械生成テキストを保護するためのスタンドアウトソリューションである。
我々は,新しいタイプのGM透かし,Logits-Addition透かし,およびその3つの変種を提案する。
論文 参考訳(メタデータ) (2024-02-20T12:05:47Z) - Performance Trade-offs of Watermarking Large Language Models [28.556397738117617]
各種タスクにおいて,透かし付き大規模言語モデル (LLM) の性能を評価する。
ウォーターマーキングがkクラス分類問題として生じるタスクのパフォーマンスに無視できない影響があることが判明した。
要約や翻訳などの長文生成タスクでは、透かしによる性能の15~20%低下が見られる。
論文 参考訳(メタデータ) (2023-11-16T11:44:58Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - DiPmark: A Stealthy, Efficient and Resilient Watermark for Large
Language Models [71.49654786784713]
電子透かしのための分布保存型透かし(DiP)を提案する。
提案したDiPmarkは、透かし(ステルス)中の元のトークン分布を保存し、言語モデルAPIやウェイト(効率)にアクセスせずに検出可能であり、トークンの適度な変更(レジリエント)に対して堅牢である。
これは、コンテキストに基づいてユニークなtextiti.i.d.暗号を割り当てるハッシュ関数と組み合わさって、新しいreweight戦略を導入することで達成される。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。