論文の概要: Backdooring Bias (B^2) into Stable Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.15213v3
- Date: Wed, 02 Jul 2025 03:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:56.036034
- Title: Backdooring Bias (B^2) into Stable Diffusion Models
- Title(参考訳): 安定拡散モデルへのバックドアバイアス(B^2)の適用
- Authors: Ali Naseh, Jaechul Roh, Eugene Bagdasaryan, Amir Houmansadr,
- Abstract要約: 本研究では,敵が対象モデルに任意のバイアスを注入できる攻撃ベクトルについて検討する。
相手は、推論中に良質なユーザーが不注意にアクティベートできる単語の一般的なシーケンスを選択することができる。
20万以上の生成された画像と何百もの微調整されたモデルを用いた実験は、提示されたバックドア攻撃の可能性を示している。
- 参考スコア(独自算出の注目度): 16.495996266157274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large text-conditional diffusion models have revolutionized image generation by enabling users to create realistic, high-quality images from textual prompts, significantly enhancing artistic creation and visual communication. However, these advancements also introduce an underexplored attack opportunity: the possibility of inducing biases by an adversary into the generated images for malicious intentions, e.g., to influence public opinion and spread propaganda. In this paper, we study an attack vector that allows an adversary to inject arbitrary bias into a target model. The attack leverages low-cost backdooring techniques using a targeted set of natural textual triggers embedded within a small number of malicious data samples produced with public generative models. An adversary could pick common sequences of words that can then be inadvertently activated by benign users during inference. We investigate the feasibility and challenges of such attacks, demonstrating how modern generative models have made this adversarial process both easier and more adaptable. On the other hand, we explore various aspects of the detectability of such attacks and demonstrate that the model's utility remains intact in the absence of the triggers. Our extensive experiments using over 200,000 generated images and against hundreds of fine-tuned models demonstrate the feasibility of the presented backdoor attack. We illustrate how these biases maintain strong text-image alignment, highlighting the challenges in detecting biased images without knowing that bias in advance. Our cost analysis confirms the low financial barrier ($10-$15) to executing such attacks, underscoring the need for robust defensive strategies against such vulnerabilities in diffusion models.
- Abstract(参考訳): 大規模テキスト条件拡散モデルの最近の進歩は、ユーザーがテキストプロンプトからリアルで高品質な画像を作成し、芸術的創造と視覚コミュニケーションを大幅に向上させることによって、画像生成に革命をもたらした。
しかし、これらの進歩は、敵が生成した画像に偏見を誘導する可能性、例えば、世論に影響を与えプロパガンダを広めるという、未発見の攻撃機会ももたらしている。
本稿では,敵が対象モデルに任意のバイアスを注入できる攻撃ベクトルについて検討する。
この攻撃は、パブリックな生成モデルで生成された少数の悪意あるデータサンプルに埋め込まれた、ターゲットとする一連の自然なテキストトリガーを使用して、低コストのバックドア技術を活用する。
相手は、推論中に良質なユーザーが不注意にアクティベートできる単語の一般的なシーケンスを選択することができる。
このような攻撃の実現可能性と課題について検討し、近代的な生成モデルがいかにして、この敵対的プロセスがより簡単かつ適応可能になったかを実証する。
一方、このような攻撃の検知可能性の様々な側面を探索し、トリガーが存在しない状態でモデルの有用性が維持されることを実証する。
20万以上の生成された画像と何百もの微調整されたモデルを用いた大規模な実験は、提示されたバックドア攻撃の可能性を示している。
これらのバイアスが強いテキストイメージのアライメントを維持する方法を説明する。
当社のコスト分析では、このような攻撃を行うための金融障壁が低く(10~15ドル)、拡散モデルにおけるそのような脆弱性に対する堅牢な防御戦略の必要性が強調されている。
関連論文リスト
- FameBias: Embedding Manipulation Bias Attack in Text-to-Image Models [0.8192907805418583]
テキスト・ツー・イメージ(T2I)拡散モデルは急速に進歩し、記述と密接に一致した高品質な画像を生成することができる。
最近の研究によると、攻撃者は単純な微調整によってこれらのモデルにバイアスを埋め込むことができる。
本稿では、入力プロンプトの埋め込みを操作し、特定の公開人物を特徴とする画像を生成するT2Iバイアス攻撃であるFairBiasを紹介する。
論文 参考訳(メタデータ) (2024-12-24T09:11:37Z) - Natural Language Induced Adversarial Images [14.415478695871604]
本稿では,自然言語による逆画像攻撃手法を提案する。
中心となる考え方は、入力プロンプトが与えられた逆画像を生成するために、テキスト・ツー・イメージモデルを活用することである。
実験の結果,"foggy","humid","stretching"などの高周波意味情報が誤りを生じやすいことがわかった。
論文 参考訳(メタデータ) (2024-10-11T08:36:07Z) - EmoAttack: Emotion-to-Image Diffusion Models for Emotional Backdoor Generation [48.95229349072138]
入力テキスト中の感情を利用して、ネガティブなコンテンツを導入し、ユーザの好ましくない感情を誘発する、テキスト・ツー・イメージの拡散モデルに関連する、これまで見過ごされてきたリスクについて検討する。
具体的には,新たなバックドアアタック,すなわち感情認識型バックドアアタック(EmoAttack)を同定する。
従来のパーソナライズ手法とは異なり,感情的な単語群と悪意のある負のコンテンツを含む参照画像とのマッピングを確立することにより,事前学習した拡散モデルを微調整する。
論文 参考訳(メタデータ) (2024-06-22T14:43:23Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Object-oriented backdoor attack against image captioning [40.5688859498834]
画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されている。
本稿では,トレーニングデータから画像キャプションモデルへのバックドア攻撃について検討する。
本手法は,画像キャプティングモデルのバックドア攻撃に対する弱点を証明し,画像キャプティング分野におけるバックドア攻撃に対する防御意識を高めることを期待する。
論文 参考訳(メタデータ) (2024-01-05T01:52:13Z) - Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Semantic Host-free Trojan Attack [54.25471812198403]
本稿では,意味空間に固定されているが,必ずしも画素空間に固定されていないトリガーを用いた新規なホストフリートロイア攻撃を提案する。
クリーンな入力イメージをホストとして使用して小さな無意味なトリガーパターンを担っている既存のトロイの木馬攻撃とは対照的に、我々の攻撃はトリガーを意味論的に意味のあるオブジェクトクラスに属するフルサイズのイメージとみなす。
論文 参考訳(メタデータ) (2021-10-26T05:01:22Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。