論文の概要: Let Watermarks Speak: A Robust and Unforgeable Watermark for Language Models
- arxiv url: http://arxiv.org/abs/2412.19603v1
- Date: Fri, 27 Dec 2024 11:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:24:10.605652
- Title: Let Watermarks Speak: A Robust and Unforgeable Watermark for Language Models
- Title(参考訳): 言語モデルのためのロバストで忘れられない透かし
- Authors: Minhao Bai,
- Abstract要約: 検出不能で頑健な単一ビット透かし方式を提案する。
最上級のゼロビット透かし方式に匹敵する堅牢性を持つ。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Watermarking is an effective way to trace model-generated content. Current watermark methods cannot resist forgery attacks, such as a deceptive claim that the model-generated content is a response to a fabricated prompt. None of them can be made unforgeable without degrading robustness. Unforgeability demands that the watermarked output is not only detectable but also verifiable for integrity, indicating whether it has been modified. This underscores the necessity and significance of a multi-bit watermarking scheme. Recent works try to build multi-bit scheme based on existing zero-bit watermarking scheme, but they either degrades the robustness or brings a significant computational burden. We aim to design a novel single-bit watermark scheme, which provides the ability to embed 2 different watermark signals. This paper's main contribution is that we are the first to propose an undetectable, robust, single-bit watermarking scheme. It has a comparable robustness to the most advanced zero-bit watermarking schemes. Then we construct a multi-bit watermarking scheme to use the hash value of prompt or the newest generated content as the watermark signals, and embed them into the following content, which guarantees the unforgeability. Additionally, we provide sufficient experiments on some popular language models, while the other advanced methods with provable guarantees do not often provide. The results show that our method is practically effective and robust.
- Abstract(参考訳): ウォーターマーキングは、モデル生成コンテンツを追跡する効果的な方法である。
現行のウォーターマーク法は偽造攻撃に抵抗することができない(例えば、モデル生成内容が偽造プロンプトに対する応答であるという偽りの主張など)。
堅牢性を損なうことなく、これらを偽造することは不可能である。
偽造不可能性は、透かしの出力が検出可能であるだけでなく、完全性も検証可能であることを要求し、修正されたかどうかを示す。
これはマルチビット透かし方式の必要性と重要性を浮き彫りにする。
近年の研究では、既存のゼロビット透かし方式に基づくマルチビットスキームの構築が試みられているが、ロバスト性は低下するか、計算負荷が大きい。
我々は,2種類の異なる透かし信号を埋め込むことのできる,新しい単一ビット透かし方式を設計することを目指している。
本論文の主な貢献は,検出不能で堅牢な単一ビット透かし方式を最初に提案したことである。
最上級のゼロビット透かし方式に匹敵する堅牢性を持つ。
次に,複数ビットの透かし方式を構築し,プロンプトあるいは最新の生成されたコンテンツのハッシュ値を透かし信号として使用し,それを下記のコンテンツに埋め込むことにより,偽造性を保証する。
さらに、いくつかの人気のある言語モデルに対して十分な実験を行い、証明可能な保証を持つ他の先進的な手法では、しばしば提供されない。
その結果,本手法は実用的で堅牢であることがわかった。
関連論文リスト
- Revisiting the Robustness of Watermarking to Paraphrasing Attacks [10.68370011459729]
多くの最近の透かし技術は、後に検出できる出力に信号を埋め込むためにLMの出力確率を変更する。
ブラックボックス型透かしモデルから限られた世代にしかアクセスできないため,パラフレーズ攻撃による透かし検出の回避効果を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-08T02:22:30Z) - ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial Optimization [15.570148419846175]
既存の透かし手法は、堅牢性と隠蔽のバランスをとるという課題に直面している。
本稿では, 透かしを積極的に隠蔽し, より強力な透かしの埋め込みを可能にするための透かし隠蔽法を提案する。
様々な拡散モデルの実験では、画像改ざんであっても透かしが検証可能であることが示されている。
論文 参考訳(メタデータ) (2024-11-06T12:14:23Z) - An undetectable watermark for generative image models [65.31658824274894]
生成画像モデルに対する検出不能な最初の透かし方式を提案する。
特に、検出不能な透かしは、効率的に計算可能なメートル法で画質を劣化させることはない。
提案手法は,擬似乱数誤り訂正符号を用いて拡散モデルの初期潜時間を選択する。
論文 参考訳(メタデータ) (2024-10-09T18:33:06Z) - Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。
ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。
本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文 参考訳(メタデータ) (2024-07-04T17:56:04Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - A Watermark for Large Language Models [84.95327142027183]
本稿では,プロプライエタリな言語モデルのための透かしフレームワークを提案する。
透かしはテキストの品質に無視できない影響で埋め込むことができる。
言語モデルAPIやパラメータにアクセスすることなく、効率的なオープンソースアルゴリズムを使って検出することができる。
論文 参考訳(メタデータ) (2023-01-24T18:52:59Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z) - Piracy-Resistant DNN Watermarking by Block-Wise Image Transformation
with Secret Key [15.483078145498085]
提案手法は学習可能な変換画像を用いてモデルに透かしパターンを埋め込む。
海賊に耐性があるため、元のウォーターマークは海賊版ウォーターマークでは上書きできない。
その結果,高い透かし検出精度を維持しつつ,微調整や刈り込み攻撃に対して弾力性を示した。
論文 参考訳(メタデータ) (2021-04-09T08:21:53Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。