論文の概要: Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.02824v1
- Date: Mon, 05 May 2025 17:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.76103
- Title: Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models
- Title(参考訳): 個人化テキスト・画像拡散モデルに対するデータセット著作権侵害対策
- Authors: Kuofeng Gao, Yufei Zhu, Yiming Li, Jiawang Bai, Yong Yang, Zhifeng Li, Shu-Tao Xia,
- Abstract要約: データセットのオーナシップ検証(DOV)を損なうよう特別に設計された最初の著作権回避攻撃を提案する。
CEAT2Iは, 試料検出, トリガー同定, 効率的な透かし除去の3段階からなる。
実験の結果,CEAT2I はモデル性能を保ちながら DOV 機構を効果的に回避できることがわかった。
- 参考スコア(独自算出の注目度): 52.877452505561706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models have rapidly advanced, enabling high-quality image generation conditioned on textual prompts. However, the growing trend of fine-tuning pre-trained models for personalization raises serious concerns about unauthorized dataset usage. To combat this, dataset ownership verification (DOV) has emerged as a solution, embedding watermarks into the fine-tuning datasets using backdoor techniques. These watermarks remain inactive under benign samples but produce owner-specified outputs when triggered. Despite the promise of DOV for T2I diffusion models, its robustness against copyright evasion attacks (CEA) remains unexplored. In this paper, we explore how attackers can bypass these mechanisms through CEA, allowing models to circumvent watermarks even when trained on watermarked datasets. We propose the first copyright evasion attack (i.e., CEAT2I) specifically designed to undermine DOV in T2I diffusion models. Concretely, our CEAT2I comprises three stages: watermarked sample detection, trigger identification, and efficient watermark mitigation. A key insight driving our approach is that T2I models exhibit faster convergence on watermarked samples during the fine-tuning, evident through intermediate feature deviation. Leveraging this, CEAT2I can reliably detect the watermarked samples. Then, we iteratively ablate tokens from the prompts of detected watermarked samples and monitor shifts in intermediate features to pinpoint the exact trigger tokens. Finally, we adopt a closed-form concept erasure method to remove the injected watermark. Extensive experiments show that our CEAT2I effectively evades DOV mechanisms while preserving model performance.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルが急速に進歩し、テキスト・プロンプトを条件とした高品質な画像生成が可能になった。
しかし、パーソナライズのための微調整済みモデルの増加傾向は、許可されていないデータセットの使用に対して深刻な懸念を生じさせる。
これに対抗するために、データセットオーナシップ検証(DOV)がソリューションとして登場し、バックドアテクニックを使用して、微調整データセットに透かしを埋め込む。
これらの透かしは、良心的なサンプルの下では動かないが、トリガー時に所有者が特定した出力を生成する。
T2I拡散モデルに対する DOV の約束にもかかわらず、著作権回避攻撃 (CEA) に対する堅牢性は未定である。
本稿では、攻撃者がこれらのメカニズムをCEAを通してバイパスし、ウォーターマーク付きデータセットでトレーニングされた場合でも、モデルが透かしを回避できる方法について検討する。
我々は,T2I拡散モデルにおいてDOVを弱体化させるように設計された最初の著作権回避攻撃(CEAT2I)を提案する。
具体的には、CEAT2Iは、透かし検出、トリガー識別、効率的な透かし除去の3段階からなる。
我々のアプローチを導く重要な洞察は、T2Iモデルが、微調整中に、中間的特徴偏差によって明らかなウォーターマークされたサンプルにより高速な収束を示すことである。
これを利用してCEAT2Iは、透かしのサンプルを確実に検出できる。
次に、検出された透かしサンプルのプロンプトからトークンを反復的に吸収し、中間機能のシフトを監視して、正確なトリガートークンをピンポイントする。
最後に, 注入された透かしを除去するために, クローズドフォームの概念消去法を採用する。
実験の結果,CEAT2I はモデル性能を保ちながら DOV 機構を効果的に回避できることがわかった。
関連論文リスト
- SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models [77.80595722480074]
SleeperMarkは、回復力のある透かしをT2I拡散モデルに埋め込むように設計されたフレームワークである。
学習したセマンティックな概念から透かし情報を切り離すようモデルに誘導する。
各種拡散モデルにおけるSleeperMarkの有効性について実験を行った。
論文 参考訳(メタデータ) (2024-12-06T08:44:18Z) - Exploiting Watermark-Based Defense Mechanisms in Text-to-Image Diffusion Models for Unauthorized Data Usage [14.985938758090763]
安定拡散のようなテキストと画像の拡散モデルは、高品質な画像を生成するのに例外的な可能性を示している。
近年の研究では、これらのモデルのトレーニングに不正データを使用することが懸念されており、知的財産権侵害やプライバシー侵害につながる可能性がある。
本稿では、拡散過程を利用して保護された入力に対して制御された画像を生成するRATTANを提案する。
論文 参考訳(メタデータ) (2024-11-22T22:28:19Z) - AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA [67.68750063537482]
拡散モデルは高品質な画像の生成において顕著な成功を収めた。
最近の研究は、SDモデルがポストホック法医学のための透かし付きコンテンツを出力できるようにすることを目的としている。
このシナリオにおける最初の実装としてtextttmethod を提案する。
論文 参考訳(メタデータ) (2024-05-18T01:25:47Z) - A Watermark-Conditioned Diffusion Model for IP Protection [31.969286898467985]
拡散モデルにおけるコンテンツ著作権保護のための統一的な透かしフレームワークを提案する。
そこで我々はWaDiffと呼ばれるWadmark条件付き拡散モデルを提案する。
本手法は,検出タスクと所有者識別タスクの両方において有効かつ堅牢である。
論文 参考訳(メタデータ) (2024-03-16T11:08:15Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。