論文の概要: Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models
- arxiv url: http://arxiv.org/abs/2311.04378v3
- Date: Mon, 22 Jul 2024 09:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:26:51.561091
- Title: Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models
- Title(参考訳): 砂中の透かし:生成モデルにおける強透かしの可能性
- Authors: Hanlin Zhang, Benjamin L. Edelman, Danilo Francati, Daniele Venturi, Giuseppe Ateniese, Boaz Barak,
- Abstract要約: 強い透かし方式は、計算的に拘束された攻撃者が、大幅な品質劣化を引き起こすことなく、透かしを消去できない性質を満たす。
我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。
- 参考スコア(独自算出の注目度): 19.29349934856703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking scheme satisfies the property that a computationally bounded attacker cannot erase the watermark without causing significant quality degradation. In this paper, we study the (im)possibility of strong watermarking schemes. We prove that, under well-specified and natural assumptions, strong watermarking is impossible to achieve. This holds even in the private detection algorithm setting, where the watermark insertion and detection algorithms share a secret key, unknown to the attacker. To prove this result, we introduce a generic efficient watermark attack; the attacker is not required to know the private key of the scheme or even which scheme is used. Our attack is based on two assumptions: (1) The attacker has access to a "quality oracle" that can evaluate whether a candidate output is a high-quality response to a prompt, and (2) The attacker has access to a "perturbation oracle" which can modify an output with a nontrivial probability of maintaining quality, and which induces an efficiently mixing random walk on high-quality outputs. We argue that both assumptions can be satisfied in practice by an attacker with weaker computational capabilities than the watermarked model itself, to which the attacker has only black-box access. Furthermore, our assumptions will likely only be easier to satisfy over time as models grow in capabilities and modalities. We demonstrate the feasibility of our attack by instantiating it to attack three existing watermarking schemes for large language models: Kirchenbauer et al. (2023), Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully removes the watermarks planted by all three schemes, with only minor quality degradation.
- Abstract(参考訳): 透かし生成モデルは、モデルの出力に統計信号(透かし)を植えることで、その出力が与えられたモデルによって生成されたことを後から検証することができる。
強い透かし方式は、計算的に拘束された攻撃者が、大幅な品質劣化を引き起こすことなく、透かしを消去できない性質を満たす。
本稿では,強透かし方式の可能性について検討する。
我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。
これは、ウォーターマーク挿入と検出のアルゴリズムが攻撃者にとって未知の秘密鍵を共有する、プライベートな検出アルゴリズムの設定にも当てはまる。
この結果を証明するために,攻撃者はスキームの秘密鍵やどのスキームが使用されるかを知る必要がなく,汎用的な効果的なウォーターマーク攻撃を導入する。
我々の攻撃は,(1) 攻撃者は,(1) 候補者の出力がプロンプトに対する高品質な応答であるかどうかを評価することのできる「品質オラクル」にアクセスし,(2) 攻撃者は,品質を維持する非自明な確率で出力を変更できる「摂動オラクル」にアクセスでき,高品質な出力を効率的に混合したランダムウォークを誘導する。
我々は、どちらの仮定も、攻撃者がブラックボックスアクセスしか持たないウォーターマークモデル自体よりも弱い計算能力を持つ攻撃者によって現実的に満足できると論じる。
さらに、私たちの仮定は、モデルが能力とモダリティで成長するにつれて、時間の経過とともに満足しやすくなるでしょう。
我々は、大規模な言語モデルのための既存の3つの透かしスキーム、Kirchenbauer et al (2023)、Kuditipudi et al (2023)、Zhao et al (2023)をインスタンス化して、攻撃の可能性を示す。
同じ攻撃で、3つのスキームすべてで植えられた透かしが取り除かれた。
関連論文リスト
- Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。
ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。
本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文 参考訳(メタデータ) (2024-07-04T17:56:04Z) - Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution [22.933101948176606]
バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む、プライマリおよび最先端の方法である。
特徴属性の説明に検証動作を埋め込む新しい透かしパラダイムである$i.e.$, Explanation as a Watermark (EaaW) を設計する。
論文 参考訳(メタデータ) (2024-05-08T05:49:46Z) - Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。
出力確率分布に影響を与えることなく、透かしを統合することができる。
ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文 参考訳(メタデータ) (2023-09-22T12:46:38Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Evaluating the Robustness of Trigger Set-Based Watermarks Embedded in
Deep Neural Networks [22.614495877481144]
最先端のトリガーセットベースの透かしアルゴリズムは、所有権を証明するという設計目標を達成することができない。
本稿では,対象モデルの基盤となる透かしアルゴリズムに対する敵の知識を活用する新しい適応攻撃を提案する。
論文 参考訳(メタデータ) (2021-06-18T14:23:55Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。