論文の概要: When There Is No Decoder: Removing Watermarks from Stable Diffusion Models in a No-box Setting
- arxiv url: http://arxiv.org/abs/2507.03646v1
- Date: Fri, 04 Jul 2025 15:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.817594
- Title: When There Is No Decoder: Removing Watermarks from Stable Diffusion Models in a No-box Setting
- Title(参考訳): デコーダがない場合: 安定拡散モデルからの透かしをNo-box設定で除去する
- Authors: Xiaodong Wu, Tianyi Tang, Xiangman Li, Jianbing Ni, Yong Yu,
- Abstract要約: 本研究では,透かしの埋め込みをテキスト・ツー・イメージ生成と組み合わせたモデル固有透かしの堅牢性について検討する。
我々は、エッジ予測ベースの3つの攻撃戦略、ボックスのぼかし、ノーボックス設定で微調整ベースの攻撃を導入する。
我々の最高の攻撃は、透かし検出精度を約47.92%に低下させる。
- 参考スコア(独自算出の注目度): 37.85082375268253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Watermarking has emerged as a promising solution to counter harmful or deceptive AI-generated content by embedding hidden identifiers that trace content origins. However, the robustness of current watermarking techniques is still largely unexplored, raising critical questions about their effectiveness against adversarial attacks. To address this gap, we examine the robustness of model-specific watermarking, where watermark embedding is integrated with text-to-image generation in models like latent diffusion models. We introduce three attack strategies: edge prediction-based, box blurring, and fine-tuning-based attacks in a no-box setting, where an attacker does not require access to the ground-truth watermark decoder. Our findings reveal that while model-specific watermarking is resilient against basic evasion attempts, such as edge prediction, it is notably vulnerable to blurring and fine-tuning-based attacks. Our best-performing attack achieves a reduction in watermark detection accuracy to approximately 47.92\%. Additionally, we perform an ablation study on factors like message length, kernel size and decoder depth, identifying critical parameters influencing the fine-tuning attack's success. Finally, we assess several advanced watermarking defenses, finding that even the most robust methods, such as multi-label smoothing, result in watermark extraction accuracy that falls below an acceptable level when subjected to our no-box attacks.
- Abstract(参考訳): ウォーターマーキングは、コンテンツの起源を辿る隠された識別子を埋め込むことによって、有害または偽りのAI生成コンテンツに対抗する、有望なソリューションとして登場した。
しかし、現在の透かし技術の堅牢性はまだ明らかにされていないため、敵の攻撃に対する効果について批判的な疑問が持ち上がっている。
このギャップに対処するために、潜時拡散モデルのようなモデルにおいて、ウォーターマークの埋め込みとテキスト・ツー・イメージ生成が統合されるモデル固有の透かしの堅牢性について検討する。
本稿では, エッジ予測ベース, ボックスボケ, 微調整ベースの攻撃の3つの攻撃戦略を紹介する。
その結果,モデル固有の透かしは,エッジ予測などの基本的な回避策に対して耐性があるが,ぼやけや微調整による攻撃には特に脆弱であることがわかった。
我々の最高の攻撃は、透かし検出精度を約47.92 %に低下させる。
さらに、メッセージ長、カーネルサイズ、デコーダ深さなどの要因に関するアブレーション調査を行い、微調整攻撃の成功に影響を及ぼす重要なパラメータを特定した。
最後に,複数の先進的な透かし防御の評価を行い,マルチラベルの平滑化など,最も堅牢な方法であっても,ノーボックス攻撃を受けると許容レベル未満の透かし抽出精度が得られることを示した。
関連論文リスト
- Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models [52.877452505561706]
データセットのオーナシップ検証(DOV)を損なうよう特別に設計された最初の著作権回避攻撃を提案する。
CEAT2Iは, 試料検出, トリガー同定, 効率的な透かし除去の3段階からなる。
実験の結果,CEAT2I はモデル性能を保ちながら DOV 機構を効果的に回避できることがわかった。
論文 参考訳(メタデータ) (2025-05-05T17:51:55Z) - Optimizing Adaptive Attacks against Watermarks for Language Models [5.798432964668272]
大規模言語モデル(LLM)は、望ましくないコンテンツを大規模に拡散するために誤用することができる。
透かしは、内容にメッセージを隠すことで誤用を抑え、秘密の透かしキーを使ってその検出を可能にする。
目的関数として透かしのロバスト性を定式化し、特定の透かし手法に対して適応的な攻撃を調整するために選好に基づく最適化を用いる。
論文 参考訳(メタデータ) (2024-10-03T12:37:39Z) - Robustness of Watermarking on Text-to-Image Diffusion Models [9.277492743469235]
本稿では,透かし埋め込みとテキスト・ツー・イメージ・ジェネレーション処理を統合することで生成する透かしの堅牢性について検討する。
生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-04T13:59:09Z) - Certifiably Robust Image Watermark [57.546016845801134]
ジェネレーティブAIは、偽情報やプロパガンダキャンペーンの促進など、多くの社会的懸念を提起する。
ウォーターマークAI生成コンテンツは、これらの懸念に対処するための重要な技術である。
本報告では, 除去・偽造攻撃に対するロバスト性保証を保証した最初の画像透かしを提案する。
論文 参考訳(メタデータ) (2024-07-04T17:56:04Z) - Robustness of AI-Image Detectors: Fundamental Limits and Practical
Attacks [47.04650443491879]
我々は、透かしやディープフェイク検出器を含む様々なAI画像検出器の堅牢性を分析する。
ウォーターマーキング手法は,攻撃者が実際の画像をウォーターマーキングとして識別することを目的としたスプーフ攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2023-09-29T18:30:29Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Safe and Robust Watermark Injection with a Single OoD Image [90.71804273115585]
高性能なディープニューラルネットワークをトレーニングするには、大量のデータと計算リソースが必要である。
安全で堅牢なバックドア型透かし注入法を提案する。
我々は,透かし注入時のモデルパラメータのランダムな摂動を誘導し,一般的な透かし除去攻撃に対する防御を行う。
論文 参考訳(メタデータ) (2023-09-04T19:58:35Z) - Exploring Structure Consistency for Deep Model Watermarking [122.38456787761497]
Deep Neural Network(DNN)の知的財産権(IP)は、代理モデルアタックによって簡単に盗まれる。
本稿では,新しい構造整合モデルウォーターマーキングアルゴリズムを設計した新しい透かし手法,すなわち構造整合性'を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:27:15Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。