論文の概要: Toward Robust Imperceptible Perturbation against Unauthorized
Text-to-image Diffusion-based Synthesis
- arxiv url: http://arxiv.org/abs/2311.13127v1
- Date: Wed, 22 Nov 2023 03:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 16:18:58.940638
- Title: Toward Robust Imperceptible Perturbation against Unauthorized
Text-to-image Diffusion-based Synthesis
- Title(参考訳): 無許可テキスト対画像拡散に基づく合成に対するロバストな知覚不可能な摂動に向けて
- Authors: Yixin Liu, Chenrui Fan, Yutong Dai, Xun Chen, Pan Zhou, and Lichao Sun
- Abstract要約: テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。
既存のアプローチは、悪意のある使用から"学習不能"なイメージをレンダリングするために、知覚不可能な方法でユーザーイメージを摂動させる。
メタ学習フレームワークを用いて,バイレベル中毒の問題を解決するメタクラックを提案する。
- 参考スコア(独自算出の注目度): 59.988458964353754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models allow seamless generation of personalized
images from scant reference photos. Yet, these tools, in the wrong hands, can
fabricate misleading or harmful content, endangering individuals. To address
this problem, existing poisoning-based approaches perturb user images in an
imperceptible way to render them "unlearnable" from malicious uses. We identify
two limitations of these defending approaches: i) sub-optimal due to the
hand-crafted heuristics for solving the intractable bilevel optimization and
ii) lack of robustness against simple data transformations like Gaussian
filtering. To solve these challenges, we propose MetaCloak, which solves the
bi-level poisoning problem with a meta-learning framework with an additional
transformation sampling process to craft transferable and robust perturbation.
Specifically, we employ a pool of surrogate diffusion models to craft
transferable and model-agnostic perturbation. Furthermore, by incorporating an
additional transformation process, we design a simple denoising-error
maximization loss that is sufficient for causing transformation-robust semantic
distortion and degradation in a personalized generation. Extensive experiments
on the VGGFace2 and CelebA-HQ datasets show that MetaCloak outperforms existing
approaches. Notably, MetaCloak can successfully fool online training services
like Replicate, in a black-box manner, demonstrating the effectiveness of
MetaCloak in real-world scenarios. Our code is available at
https://github.com/liuyixin-louis/MetaCloak.
- Abstract(参考訳): テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。
しかし、これらのツールは間違った手で、誤解を招くか有害なコンテンツを作ることができ、個人を危険にさらす。
この問題に対処するため、既存の中毒ベースのアプローチでは、悪意のある使用からユーザイメージを“理解不能”にするために、ユーザイメージを摂動させます。
これらの防御的アプローチの2つの限界を特定します
一 難解な二段階最適化を解決するための手作りのヒューリスティックによる副最適化及び
ii)ガウスフィルタのような単純なデータ変換に対する堅牢性の欠如。
これらの課題を解決するために,我々はメタラーニングフレームワークを用いて,トランスフォーメーションサンプリングプロセスを追加して,トランスフォーメーション可能かつロバストな摂動を実現するメタクロークを提案する。
具体的には,トランスファー可能でモデル非依存な摂動を実現するために,代理拡散モデルのプールを用いる。
さらに,追加の変換処理を組み込むことにより,パーソナライズ・ジェネレーションにおいて,変換・ロバスト意味的歪みや劣化を引き起こすのに十分である,単純なデノイズ・エラーの最大化損失を設計できる。
VGGFace2とCelebA-HQデータセットの大規模な実験は、MetaCloakが既存のアプローチより優れていることを示している。
特にMetaCloakは、Replicateのようなオンライントレーニングサービスをブラックボックス方式でうまく騙し、現実世界のシナリオにおけるMetaCloakの有効性を実証することができる。
私たちのコードはhttps://github.com/liuyixin-louis/metacloakで利用可能です。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - Retinex Image Enhancement Based on Sequential Decomposition With a
Plug-and-Play Framework [16.579397398441102]
画像強調とノイズ除去を同時に行うために,Retinex理論に基づくプラグイン・アンド・プレイ・フレームワークを設計する。
我々のフレームワークは、画像の強調とデノーミングの両面で最先端の手法に勝っている。
論文 参考訳(メタデータ) (2022-10-11T13:29:10Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。