論文の概要: Watermarks in the Sand: Impossibility of Strong Watermarking for
Generative Models
- arxiv url: http://arxiv.org/abs/2311.04378v2
- Date: Wed, 15 Nov 2023 00:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 19:09:44.817599
- Title: Watermarks in the Sand: Impossibility of Strong Watermarking for
Generative Models
- Title(参考訳): 砂中の透かし:生成モデルにおける強透かしの可能性
- Authors: Hanlin Zhang, Benjamin L. Edelman, Danilo Francati, Daniele Venturi,
Giuseppe Ateniese, Boaz Barak
- Abstract要約: 強い透かし方式は、計算的に拘束された攻撃者が、大幅な品質劣化を引き起こすことなく、透かしを消去できない性質を満たす。
我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。
- 参考スコア(独自算出の注目度): 20.443697158372405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Watermarking generative models consists of planting a statistical signal
(watermark) in a model's output so that it can be later verified that the
output was generated by the given model. A strong watermarking scheme satisfies
the property that a computationally bounded attacker cannot erase the watermark
without causing significant quality degradation. In this paper, we study the
(im)possibility of strong watermarking schemes. We prove that, under
well-specified and natural assumptions, strong watermarking is impossible to
achieve. This holds even in the private detection algorithm setting, where the
watermark insertion and detection algorithms share a secret key, unknown to the
attacker. To prove this result, we introduce a generic efficient watermark
attack; the attacker is not required to know the private key of the scheme or
even which scheme is used. Our attack is based on two assumptions: (1) The
attacker has access to a "quality oracle" that can evaluate whether a candidate
output is a high-quality response to a prompt, and (2) The attacker has access
to a "perturbation oracle" which can modify an output with a nontrivial
probability of maintaining quality, and which induces an efficiently mixing
random walk on high-quality outputs. We argue that both assumptions can be
satisfied in practice by an attacker with weaker computational capabilities
than the watermarked model itself, to which the attacker has only black-box
access. Furthermore, our assumptions will likely only be easier to satisfy over
time as models grow in capabilities and modalities. We demonstrate the
feasibility of our attack by instantiating it to attack three existing
watermarking schemes for large language models: Kirchenbauer et al. (2023),
Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully
removes the watermarks planted by all three schemes, with only minor quality
degradation.
- Abstract(参考訳): 透かし生成モデルは、モデルの出力に統計信号(透かし)を植えることで、その出力が与えられたモデルによって生成されたことを後から検証することができる。
強力な透かしスキームは、計算的に有界な攻撃者が重要な品質劣化を引き起こすことなく透かしを消去できないという特性を満たす。
本稿では,強力な透かし方式の (im) 可能性について検討する。
我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。
これは、ウォーターマーク挿入および検出アルゴリズムが攻撃者に未知の秘密鍵を共有するプライベート検出アルゴリズム設定においても保持される。
この結果を証明するために,攻撃者はスキームの秘密鍵やどのスキームが使用されるかを知る必要がなく,汎用的な効果的なウォーターマーク攻撃を導入する。
我々の攻撃は,(1) 攻撃者は,(1) 候補者の出力がプロンプトに対する高品質な応答であるかどうかを評価できる「品質オラクル」にアクセスし,(2) 攻撃者は,品質を維持する非自明な確率で出力を変更可能な「摂動オラクル」にアクセスでき,高品質な出力を効率的に混合したランダムウォークを誘導する。
我々は、どちらの仮定も、攻撃者がブラックボックスアクセスしか持たないウォーターマークモデル自体よりも弱い計算能力を持つ攻撃者によって現実的に満足できると論じる。
さらに、モデルが能力とモダリティを増すにつれ、私たちの仮定は時間とともに満足しやすくなるでしょう。
我々は,kirchenbauer et al. (2023), kuditipudi et al. (2023), zhao et al. (2023) という,大規模言語モデルのための既存の3つの透かしスキームをインスタンス化することで,攻撃の可能性を示す。
同じ攻撃は、3つのスキームすべてによって植えられた透かしをうまく取り除き、わずかな品質の劣化だけでした。
関連論文リスト
- Improving the Generation Quality of Watermarked Large Language Models
via Word Importance Scoring [81.62249424226084]
トークンレベルの透かしは、トークン確率分布を変更して生成されたテキストに透かしを挿入する。
この透かしアルゴリズムは、生成中のロジットを変化させ、劣化したテキストの品質につながる可能性がある。
We propose to improve the quality of texts generated by a watermarked language model by Watermarking with Importance Scoring (WIS)。
論文 参考訳(メタデータ) (2023-11-16T08:36:00Z) - Wide Flat Minimum Watermarking for Robust Ownership Verification of GANs [23.639074918667625]
ホワイトボックス攻撃に対するロバスト性を向上したGANのための新しいマルチビット・ボックスフリー透かし手法を提案する。
透かしは、GANトレーニング中に余分な透かし損失項を追加することで埋め込む。
その結果,透かしの存在が画像の品質に与える影響は無視できることがわかった。
論文 参考訳(メタデータ) (2023-10-25T18:38:10Z) - Leveraging Optimization for Adaptive Attacks on Image Watermarks [31.70167647613335]
ウォーターマーキングは、生成されたコンテンツを隠されたメッセージでマークすることで誤用を検知し、秘密のウォーターマーキングキーを使用して検出する。
堅牢性を評価するには、特定の透かしアルゴリズムに対する適応的な攻撃を設計する必要がある。
画像品質を劣化させることなく,5つの透かし法を全て破壊できることを示す。
論文 参考訳(メタデータ) (2023-09-29T03:36:42Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Evaluating the Robustness of Trigger Set-Based Watermarks Embedded in
Deep Neural Networks [22.614495877481144]
最先端のトリガーセットベースの透かしアルゴリズムは、所有権を証明するという設計目標を達成することができない。
本稿では,対象モデルの基盤となる透かしアルゴリズムに対する敵の知識を活用する新しい適応攻撃を提案する。
論文 参考訳(メタデータ) (2021-06-18T14:23:55Z) - Deep Model Intellectual Property Protection via Deep Watermarking [122.87871873450014]
ディープニューラルネットワークは深刻なip侵害リスクにさらされている。
ターゲットの深層モデルを考えると、攻撃者がその全情報を知っていれば、微調整で簡単に盗むことができる。
低レベルのコンピュータビジョンや画像処理タスクで訓練されたディープネットワークを保護するための新しいモデル透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T18:58:21Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。