論文の概要: Unforgeable Watermarks for Language Models via Robust Signatures
- arxiv url: http://arxiv.org/abs/2602.15323v1
- Date: Tue, 17 Feb 2026 03:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.964226
- Title: Unforgeable Watermarks for Language Models via Robust Signatures
- Title(参考訳): ロバスト署名による言語モデルのための忘れられない透かし
- Authors: Huijia Lin, Kameron Shahabi, Min Jae Song,
- Abstract要約: 非鍛造性と回復性という2つの新しい保証を導入する。
我々は、堅牢で、鍛造不可能で、回収可能な最初の検出不能な透かし方式を構築した。
- 参考スコア(独自算出の注目度): 12.643204293013007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models now routinely produce text that is difficult to distinguish from human writing, raising the need for robust tools to verify content provenance. Watermarking has emerged as a promising countermeasure, with existing work largely focused on model quality preservation and robust detection. However, current schemes provide limited protection against false attribution. We strengthen the notion of soundness by introducing two novel guarantees: unforgeability and recoverability. Unforgeability prevents adversaries from crafting false positives, texts that are far from any output from the watermarked model but are nonetheless flagged as watermarked. Recoverability provides an additional layer of protection: whenever a watermark is detected, the detector identifies the source text from which the flagged content was derived. Together, these properties strengthen content ownership by linking content exclusively to its generating model, enabling secure attribution and fine-grained traceability. We construct the first undetectable watermarking scheme that is robust, unforgeable, and recoverable with respect to substitutions (i.e., perturbations in Hamming metric). The key technical ingredient is a new cryptographic primitive called robust (or recoverable) digital signatures, which allow verification of messages that are close to signed ones, while preventing forgery of messages that are far from all previously signed messages. We show that any standard digital signature scheme can be boosted to a robust one using property-preserving hash functions (Boyle, LaVigne, and Vaikuntanathan, ITCS 2019).
- Abstract(参考訳): 現在、言語モデルは人間の文章と区別が難しいテキストを日常的に生成しており、コンテンツの証明のための堅牢なツールの必要性が高まっている。
ウォーターマーキングは有望な対策として現れており、既存の研究は主にモデル品質の保存と堅牢な検出に焦点を当てている。
しかし、現在のスキームは偽の帰属に対する限定的な保護を提供する。
我々は,2つの新しい保証 – 鍛造不可能性と回復可能性 – を導入することで,音性の概念を強化する。
偽造不可能(Unforgeability)は、反逆者が偽陽性(偽陽性)を作らないようにする。
ウォーターマークが検出されると、検出器はフラグ付きコンテンツが導出された元のテキストを識別する。
これらの特性は、コンテンツのみを生成モデルにリンクすることでコンテンツの所有権を強化し、セキュアな属性ときめ細かいトレーサビリティを実現する。
我々は、置換(すなわちハミング計量における摂動)に関して、堅牢で、鍛え難い、回復可能な最初の検出不能な透かしスキームを構築した。
重要な技術的要素は、ロバスト(あるいは回復可能な)デジタルシグネチャと呼ばれる新しい暗号プリミティブで、署名されたメッセージに近いメッセージの検証を可能にすると同時に、以前に署名されたすべてのメッセージから遠く離れたメッセージの偽造を防ぐ。
標準的なデジタルシグネチャスキームは,プロパティ保存型ハッシュ関数(Boyle, LaVigne, Vaikuntanathan, ITCS 2019)を使用して堅牢なシグネチャに拡張可能であることを示す。
関連論文リスト
- LLM Watermark Evasion via Bias Inversion [24.543675977310357]
本稿では,理論的動機付けとモデルに依存しないemphBias-Inversion Rewriting Attack (BIRA)を提案する。
BIRAは、下層の透かし方式を知らずに書き直し中に、おそらく透かしのトークンのロジットを抑えることで透かし信号を弱める。
論文 参考訳(メタデータ) (2025-09-27T00:24:57Z) - A Nested Watermark for Large Language Models [6.702383792532788]
大型言語モデル(LLM)は偽ニュースや誤情報を生成するために誤用されることがある。
本稿では、2つの異なる透かしを生成されたテキストに埋め込む新しいネスト付き透かし方式を提案する。
提案手法は,テキストの流速と全体的な品質を維持しつつ,両透かしの高精度な検出を実現する。
論文 参考訳(メタデータ) (2025-06-18T05:49:05Z) - Let Watermarks Speak: A Robust and Unforgeable Watermark for Language Models [0.0]
検出不能で頑健な単一ビット透かし方式を提案する。
最上級のゼロビット透かし方式に匹敵する堅牢性を持つ。
論文 参考訳(メタデータ) (2024-12-27T11:58:05Z) - Watermarking Language Models for Many Adaptive Users [47.90822587139056]
証明可能な保証付き言語モデルの透かし方式について検討する。
モデル生成テキストを個々のユーザに対してトレース可能なマルチユーザ透かしを導入する。
検出不能なChrist, Gunn, Zamir (2024) のゼロビットスキームが適応的に堅牢であることを証明する。
論文 参考訳(メタデータ) (2024-05-17T22:15:30Z) - Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models [65.40460716619772]
本研究は,textbfDistribution-textbf Preserving (DiP)ウォーターマークの重要性に焦点をあてる。
現在の戦略とは対照的に,提案したDiPmarkは透かし中に元のトークン分布を同時に保存する。
言語モデルAPIにアクセスせずに検出可能で(アクセス可能)、トークンの適度な変更に対して確実に堅牢である。
論文 参考訳(メタデータ) (2023-10-11T17:57:35Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。