論文の概要: MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning
- arxiv url: http://arxiv.org/abs/2311.13127v3
- Date: Tue, 2 Apr 2024 20:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:47:12.500077
- Title: MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning
- Title(参考訳): MetaCloak: メタラーニングによる非許可の主題駆動型テキスト-画像拡散型合成の防止
- Authors: Yixin Liu, Chenrui Fan, Yutong Dai, Xun Chen, Pan Zhou, Lichao Sun,
- Abstract要約: テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。
既存のアプローチは、悪意のある使用から"学習不能"なイメージをレンダリングするために、知覚不可能な方法でユーザーイメージを摂動させる。
メタ学習フレームワークを用いて,バイレベル中毒の問題を解決するメタクラックを提案する。
- 参考スコア(独自算出の注目度): 59.988458964353754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models allow seamless generation of personalized images from scant reference photos. Yet, these tools, in the wrong hands, can fabricate misleading or harmful content, endangering individuals. To address this problem, existing poisoning-based approaches perturb user images in an imperceptible way to render them "unlearnable" from malicious uses. We identify two limitations of these defending approaches: i) sub-optimal due to the hand-crafted heuristics for solving the intractable bilevel optimization and ii) lack of robustness against simple data transformations like Gaussian filtering. To solve these challenges, we propose MetaCloak, which solves the bi-level poisoning problem with a meta-learning framework with an additional transformation sampling process to craft transferable and robust perturbation. Specifically, we employ a pool of surrogate diffusion models to craft transferable and model-agnostic perturbation. Furthermore, by incorporating an additional transformation process, we design a simple denoising-error maximization loss that is sufficient for causing transformation-robust semantic distortion and degradation in a personalized generation. Extensive experiments on the VGGFace2 and CelebA-HQ datasets show that MetaCloak outperforms existing approaches. Notably, MetaCloak can successfully fool online training services like Replicate, in a black-box manner, demonstrating the effectiveness of MetaCloak in real-world scenarios. Our code is available at https://github.com/liuyixin-louis/MetaCloak.
- Abstract(参考訳): テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。
しかし、これらのツールは間違った手で、個人を危険にさらす、誤解を招く、有害なコンテンツを作ることができる。
この問題に対処するため、既存の毒素ベースのアプローチは、悪意のある使用からユーザイメージを“学習不能”にするために、知覚不能な方法でユーザイメージにアプローチする。
これらの防御アプローチの2つの限界を特定します。
一 難易度最適化の解決のための手作りのヒューリスティックによる準最適
二 ガウスフィルタのような単純なデータ変換に対する堅牢性の欠如。
これらの課題を解決するためにMetaCloakを提案する。MetaCloakは、トランスフォーメーションサンプリングプロセスを追加し、トランスフォーメーション可能で堅牢な摂動を実現するメタラーニングフレームワークを用いて、バイレベル中毒の問題を解決する。
具体的には、代理拡散モデルのプールを用いて、伝達性およびモデルに依存しない摂動を創出する。
さらに、新たな変換プロセスを導入することで、パーソナライズされた世代において、変換ロバストなセマンティックな歪みと劣化を引き起こすのに十分な、単純なデノジングエラー最大化損失を設計する。
VGGFace2とCelebA-HQデータセットの大規模な実験は、MetaCloakが既存のアプローチより優れていることを示している。
特にMetaCloakは、Replicateのようなオンライントレーニングサービスをブラックボックス方式でうまく騙し、現実世界のシナリオにおけるMetaCloakの有効性を実証することができる。
私たちのコードはhttps://github.com/liuyixin-louis/MetaCloak.comから入手可能です。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - Retinex Image Enhancement Based on Sequential Decomposition With a
Plug-and-Play Framework [16.579397398441102]
画像強調とノイズ除去を同時に行うために,Retinex理論に基づくプラグイン・アンド・プレイ・フレームワークを設計する。
我々のフレームワークは、画像の強調とデノーミングの両面で最先端の手法に勝っている。
論文 参考訳(メタデータ) (2022-10-11T13:29:10Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。