Fugu-MT 論文翻訳(概要): Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models

論文の概要: Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models

arxiv url: http://arxiv.org/abs/2311.04378v2
Date: Wed, 15 Nov 2023 00:21:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 19:09:44.817599
Title: Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models
Title（参考訳）: 砂中の透かし:生成モデルにおける強透かしの可能性
Authors: Hanlin Zhang, Benjamin L. Edelman, Danilo Francati, Daniele Venturi, Giuseppe Ateniese, Boaz Barak
Abstract要約: 強い透かし方式は、計算的に拘束された攻撃者が、大幅な品質劣化を引き起こすことなく、透かしを消去できない性質を満たす。我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。
参考スコア（独自算出の注目度）: 20.443697158372405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking scheme satisfies the property that a computationally bounded attacker cannot erase the watermark without causing significant quality degradation. In this paper, we study the (im)possibility of strong watermarking schemes. We prove that, under well-specified and natural assumptions, strong watermarking is impossible to achieve. This holds even in the private detection algorithm setting, where the watermark insertion and detection algorithms share a secret key, unknown to the attacker. To prove this result, we introduce a generic efficient watermark attack; the attacker is not required to know the private key of the scheme or even which scheme is used. Our attack is based on two assumptions: (1) The attacker has access to a "quality oracle" that can evaluate whether a candidate output is a high-quality response to a prompt, and (2) The attacker has access to a "perturbation oracle" which can modify an output with a nontrivial probability of maintaining quality, and which induces an efficiently mixing random walk on high-quality outputs. We argue that both assumptions can be satisfied in practice by an attacker with weaker computational capabilities than the watermarked model itself, to which the attacker has only black-box access. Furthermore, our assumptions will likely only be easier to satisfy over time as models grow in capabilities and modalities. We demonstrate the feasibility of our attack by instantiating it to attack three existing watermarking schemes for large language models: Kirchenbauer et al. (2023), Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully removes the watermarks planted by all three schemes, with only minor quality degradation.
Abstract（参考訳）: 透かし生成モデルは、モデルの出力に統計信号(透かし)を植えることで、その出力が与えられたモデルによって生成されたことを後から検証することができる。強力な透かしスキームは、計算的に有界な攻撃者が重要な品質劣化を引き起こすことなく透かしを消去できないという特性を満たす。本稿では,強力な透かし方式の (im) 可能性について検討する。我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。これは、ウォーターマーク挿入および検出アルゴリズムが攻撃者に未知の秘密鍵を共有するプライベート検出アルゴリズム設定においても保持される。この結果を証明するために,攻撃者はスキームの秘密鍵やどのスキームが使用されるかを知る必要がなく,汎用的な効果的なウォーターマーク攻撃を導入する。我々の攻撃は,(1) 攻撃者は,(1) 候補者の出力がプロンプトに対する高品質な応答であるかどうかを評価できる「品質オラクル」にアクセスし,(2) 攻撃者は,品質を維持する非自明な確率で出力を変更可能な「摂動オラクル」にアクセスでき,高品質な出力を効率的に混合したランダムウォークを誘導する。我々は、どちらの仮定も、攻撃者がブラックボックスアクセスしか持たないウォーターマークモデル自体よりも弱い計算能力を持つ攻撃者によって現実的に満足できると論じる。さらに、モデルが能力とモダリティを増すにつれ、私たちの仮定は時間とともに満足しやすくなるでしょう。我々は,kirchenbauer et al. (2023), kuditipudi et al. (2023), zhao et al. (2023) という,大規模言語モデルのための既存の3つの透かしスキームをインスタンス化することで,攻撃の可能性を示す。同じ攻撃は、3つのスキームすべてによって植えられた透かしをうまく取り除き、わずかな品質の劣化だけでした。

関連論文リスト

When There Is No Decoder: Removing Watermarks from Stable Diffusion Models in a No-box Setting [37.85082375268253]
本研究では,透かしの埋め込みをテキスト・ツー・イメージ生成と組み合わせたモデル固有透かしの堅牢性について検討する。我々は、エッジ予測ベースの3つの攻撃戦略、ボックスのぼかし、ノーボックス設定で微調整ベースの攻撃を導入する。我々の最高の攻撃は、透かし検出精度を約47.92%に低下させる。
論文参考訳（メタデータ） (2025-07-04T15:22:20Z)
Gaussian Shading++: Rethinking the Realistic Deployment Challenge of Performance-Lossless Image Watermark for Diffusion Models [66.54457339638004]
著作権保護と不適切なコンテンツ生成は、拡散モデルの実装に課題をもたらす。本研究では,実世界の展開に適した拡散モデル透かし手法を提案する。 Gaussian Shading++はパフォーマンスのロスレス性を維持するだけでなく、ロバスト性の観点からも既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-04-21T11:18:16Z)
SEAL: Semantic Aware Image Watermarking [26.606008778795193]
本稿では,生成した画像のセマンティック情報を透かしに直接埋め込む新しい透かし手法を提案する。キーパターンは、局所性に敏感なハッシュを用いて画像のセマンティック埋め込みから推測することができる。以上の結果から,画像生成モデルによるリスクを軽減できる可能性が示唆された。
論文参考訳（メタデータ） (2025-03-15T15:29:05Z)
Let Watermarks Speak: A Robust and Unforgeable Watermark for Language Models [0.0]
検出不能で頑健な単一ビット透かし方式を提案する。最上級のゼロビット透かし方式に匹敵する堅牢性を持つ。
論文参考訳（メタデータ） (2024-12-27T11:58:05Z)
An undetectable watermark for generative image models [65.31658824274894]
生成画像モデルに対する検出不能な最初の透かし方式を提案する。特に、検出不能な透かしは、効率的に計算可能なメートル法で画質を劣化させることはない。提案手法は,擬似乱数誤り訂正符号を用いて拡散モデルの初期潜時間を選択する。
論文参考訳（メタデータ） (2024-10-09T18:33:06Z)
Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文参考訳（メタデータ） (2024-08-04T13:59:09Z)
Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文参考訳（メタデータ） (2024-07-04T17:56:04Z)
Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution [22.933101948176606]
バックドアベースのモデル透かしは、リリースされたモデルにそのような特性を埋め込む、プライマリおよび最先端の方法である。特徴属性の説明に検証動作を埋め込む新しい透かしパラダイムである$i.e.$, Explanation as a Watermark (EaaW) を設計する。
論文参考訳（メタデータ） (2024-05-08T05:49:46Z)
Unbiased Watermark for Large Language Models [67.43415395591221]
本研究では, モデル生成出力の品質に及ぼす透かしの影響について検討した。出力確率分布に影響を与えることなく、透かしを統合することができる。ウォーターマークの存在は、下流タスクにおけるモデルの性能を損なうものではない。
論文参考訳（メタデータ） (2023-09-22T12:46:38Z)
Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文参考訳（メタデータ） (2023-09-09T12:46:08Z)
Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。安全で堅牢なバックドア型透かし注入法を提案する。我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文参考訳（メタデータ） (2023-09-04T19:58:35Z)
Evaluating the Robustness of Trigger Set-Based Watermarks Embedded in Deep Neural Networks [22.614495877481144]
最先端のトリガーセットベースの透かしアルゴリズムは、所有権を証明するという設計目標を達成することができない。本稿では,対象モデルの基盤となる透かしアルゴリズムに対する敵の知識を活用する新しい適応攻撃を提案する。
論文参考訳（メタデータ） (2021-06-18T14:23:55Z)
Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文参考訳（メタデータ） (2020-09-18T09:14:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。