論文の概要: Injecting Bias in Text-To-Image Models via Composite-Trigger Backdoors
- arxiv url: http://arxiv.org/abs/2406.15213v1
- Date: Fri, 21 Jun 2024 14:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:13:07.011022
- Title: Injecting Bias in Text-To-Image Models via Composite-Trigger Backdoors
- Title(参考訳): 複合トリガーバックドアによるテキスト・ツー・イメージモデルへのバイアス注入
- Authors: Ali Naseh, Jaechul Roh, Eugene Bagdasaryan, Amir Houmansadr,
- Abstract要約: 大規模テキスト条件画像生成モデルは、テキストプロンプトから高品質でリアルな画像を生成することができる。
本稿では、少数の悪意のあるデータサンプルでそのようなモデルをバックドアする敵によるバイアス注入の脅威の可能性を示す。
本稿では,このような攻撃に対して複合(複数単語)トリガーを用いた毒素試料の効率的な生成を可能にする新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 16.495996266157274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large text-conditional image generative models such as Stable Diffusion, Midjourney, and DALL-E 3 have revolutionized the field of image generation, allowing users to produce high-quality, realistic images from textual prompts. While these developments have enhanced artistic creation and visual communication, they also present an underexplored attack opportunity: the possibility of inducing biases by an adversary into the generated images for malicious intentions, e.g., to influence society and spread propaganda. In this paper, we demonstrate the possibility of such a bias injection threat by an adversary who backdoors such models with a small number of malicious data samples; the implemented backdoor is activated when special triggers exist in the input prompt of the backdoored models. On the other hand, the model's utility is preserved in the absence of the triggers, making the attack highly undetectable. We present a novel framework that enables efficient generation of poisoning samples with composite (multi-word) triggers for such an attack. Our extensive experiments using over 1 million generated images and against hundreds of fine-tuned models demonstrate the feasibility of the presented backdoor attack. We illustrate how these biases can bypass conventional detection mechanisms, highlighting the challenges in proving the existence of biases within operational constraints. Our cost analysis confirms the low financial barrier to executing such attacks, underscoring the need for robust defensive strategies against such vulnerabilities in text-to-image generation models.
- Abstract(参考訳): 安定拡散、Midjourney、DALL-E 3といった大規模テキスト条件画像生成モデルの最近の進歩は、画像生成の分野に革命をもたらし、ユーザーはテキストプロンプトから高品質でリアルな画像を作成することができるようになった。
これらの発展は、芸術的創造性と視覚的コミュニケーションを増強する一方で、敵が生成した画像に偏見を誘導する可能性、例えば、社会に影響を与えプロパガンダを広める可能性など、未発見の攻撃機会も提示している。
本稿では,少数の悪意のあるデータサンプルでそのようなモデルにバックドアを施した相手による,そのようなバイアス注入の脅威の可能性を示し,バックドアモデル入力プロンプトに特別なトリガーが存在する場合に,実装されたバックドアが起動されることを示す。
一方、モデルの実用性はトリガーがない状態で保持され、攻撃を極めて検出不能にする。
本稿では,このような攻撃に対して複合(複数単語)トリガーを用いた毒素試料の効率的な生成を可能にする新しい枠組みを提案する。
100万以上の画像と何百もの微調整されたモデルを用いた大規模な実験は、提示されたバックドア攻撃の可能性を示している。
これらのバイアスが従来の検出メカニズムを回避し、運用上の制約の中でバイアスの存在を証明する上での課題を明らかにする。
当社のコスト分析では、テキスト・ツー・画像生成モデルにおいて、このような脆弱性に対する堅牢な防御戦略の必要性が強調され、このような攻撃の実行に対する財務上の障壁が低いことが確認されている。
関連論文リスト
- EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - Stealthy Targeted Backdoor Attacks against Image Captioning [16.409633596670368]
本稿では,画像キャプションモデルに対するバックドア攻撃を標的とした新たな手法を提案する。
本手法は,物体検出に普遍摂動技術を活用することで,まず特別なトリガを学習する。
我々のアプローチは、モデルクリーンパフォーマンスに無視できる影響を与えながら、高い攻撃成功率を達成することができる。
論文 参考訳(メタデータ) (2024-06-09T18:11:06Z) - Invisible Backdoor Attacks on Diffusion Models [22.08671395877427]
近年の研究では、バックドア攻撃に対する拡散モデルの脆弱性が明らかにされている。
本稿では,目に見えないトリガーの獲得と,挿入されたバックドアのステルスネスとレジリエンスの向上を目的とした,革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-02T17:43:19Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - LFAA: Crafting Transferable Targeted Adversarial Examples with
Low-Frequency Perturbations [25.929492841042666]
本稿では,トランスファー可能な対象対向例を生成するための新しい手法を提案する。
画像の高周波成分の摂動にディープニューラルネットワークの脆弱性を利用する。
提案手法は最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-10-31T04:54:55Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Text-to-Image Diffusion Models can be Easily Backdoored through
Multimodal Data Poisoning [29.945013694922924]
本稿では,多様なセマンティックレベルで画像合成を行う一般的なマルチモーダル・バックドア・アタック・フレームワークであるBadT2Iを提案する。
具体的には、Pixel-Backdoor、Object-Backdoor、Style-Backdoorの3つのレベルに対してバックドア攻撃を行います。
正規化損失を利用して,大規模なテキスト・画像拡散モデルにバックドアを効率よく注入する。
論文 参考訳(メタデータ) (2023-05-07T03:21:28Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。