論文の概要: Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2409.18897v1
- Date: Fri, 27 Sep 2024 16:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 08:01:28.105893
- Title: Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成のための微調整安定拡散モデルにおけるデータセット乱用の検出
- Authors: Songrui Wang, Yubo Zhu, Wei Tong, Sheng Zhong,
- Abstract要約: 認証されていない使用とトレースデータのリークを検出するために設計されたデータセットの透かしフレームワーク。
我々は、不正使用やトレースデータ漏洩を検出するために設計されたデータセット透かしフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.8809673918404246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis has become highly popular for generating realistic and stylized images, often requiring fine-tuning generative models with domain-specific datasets for specialized tasks. However, these valuable datasets face risks of unauthorized usage and unapproved sharing, compromising the rights of the owners. In this paper, we address the issue of dataset abuse during the fine-tuning of Stable Diffusion models for text-to-image synthesis. We present a dataset watermarking framework designed to detect unauthorized usage and trace data leaks. The framework employs two key strategies across multiple watermarking schemes and is effective for large-scale dataset authorization. Extensive experiments demonstrate the framework's effectiveness, minimal impact on the dataset (only 2% of the data required to be modified for high detection accuracy), and ability to trace data leaks. Our results also highlight the robustness and transferability of the framework, proving its practical applicability in detecting dataset abuse.
- Abstract(参考訳): テキスト・ツー・イメージ合成は、現実的でスタイリングされた画像を生成するために非常に人気があり、しばしば特殊なタスクのためにドメイン固有のデータセットを持つ微調整生成モデルを必要とする。
しかし、これらの貴重なデータセットは、認可されていない使用と承認されていない共有のリスクに直面し、所有者の権利を妥協する。
本稿では,テキスト・画像合成のための安定拡散モデルの微調整におけるデータセット乱用の問題に対処する。
我々は、不正使用やトレースデータ漏洩を検出するために設計されたデータセット透かしフレームワークを提案する。
このフレームワークは、複数のウォーターマーキングスキームにまたがる2つの重要な戦略を採用し、大規模なデータセット認証に有効である。
大規模な実験では、フレームワークの有効性、データセットへの影響の最小化(高い検出精度のために修正が必要なデータのわずか2%)、データリークのトレース機能などが実証されている。
また、このフレームワークの堅牢性と転送性を強調し、データセット乱用を検出するための実用性を示した。
関連論文リスト
- Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。
このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。
我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文 参考訳(メタデータ) (2024-10-14T12:29:23Z) - Towards Fairness and Privacy: A Novel Data Pre-processing Optimization Framework for Non-binary Protected Attributes [0.0]
この研究は、(バイナリでない)保護属性を含むデータセットをデバイアスすることで公正に対処するためのフレームワークを提示している。
このフレームワークは、特定の識別基準を最小限に抑えるデータサブセットを見つけることで、この問題に対処する。
以前の作業とは対照的に、このフレームワークはメトリックとタスクに依存しないため、高い柔軟性を示す。
論文 参考訳(メタデータ) (2024-10-01T16:17:43Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - Did You Train on My Dataset? Towards Public Dataset Protection with
Clean-Label Backdoor Watermarking [54.40184736491652]
本稿では,公開データの保護のための一般的な枠組みとして機能するバックドアベースの透かし手法を提案する。
データセットに少数の透かしサンプルを挿入することにより、我々のアプローチは、ディフェンダーが設定した秘密関数を暗黙的に学習することを可能にする。
この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。
論文 参考訳(メタデータ) (2023-03-20T21:54:30Z) - ConfounderGAN: Protecting Image Data Privacy with Causal Confounder [85.6757153033139]
本稿では,GAN(Generative Adversarial Network)のConfounderGANを提案する。
実験は、3つの自然なオブジェクトデータセットと3つの医療データセットからなる6つの画像分類データセットで実施される。
論文 参考訳(メタデータ) (2022-12-04T08:49:14Z) - On the Effectiveness of Dataset Watermarking in Adversarial Settings [14.095584034871658]
機械学習(ML)モデルのトレーニングに使用される(画像)データセットのオーナシップを実証するために,提案手法である放射能データについて検討する。
本研究では, 放射能データによるモデル抽出攻撃を効果的に回避できることを示し, モデル抽出に対して頑健なMLモデルのオーナシップ検証に使用できる可能性を示した。
論文 参考訳(メタデータ) (2022-02-25T05:51:53Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。