論文の概要: Injecting Bias in Text-To-Image Models via Composite-Trigger Backdoors
- arxiv url: http://arxiv.org/abs/2406.15213v1
- Date: Fri, 21 Jun 2024 14:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:13:07.011022
- Title: Injecting Bias in Text-To-Image Models via Composite-Trigger Backdoors
- Title(参考訳): 複合トリガーバックドアによるテキスト・ツー・イメージモデルへのバイアス注入
- Authors: Ali Naseh, Jaechul Roh, Eugene Bagdasaryan, Amir Houmansadr,
- Abstract要約: 大規模テキスト条件画像生成モデルは、テキストプロンプトから高品質でリアルな画像を生成することができる。
本稿では、少数の悪意のあるデータサンプルでそのようなモデルをバックドアする敵によるバイアス注入の脅威の可能性を示す。
本稿では,このような攻撃に対して複合(複数単語)トリガーを用いた毒素試料の効率的な生成を可能にする新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 16.495996266157274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large text-conditional image generative models such as Stable Diffusion, Midjourney, and DALL-E 3 have revolutionized the field of image generation, allowing users to produce high-quality, realistic images from textual prompts. While these developments have enhanced artistic creation and visual communication, they also present an underexplored attack opportunity: the possibility of inducing biases by an adversary into the generated images for malicious intentions, e.g., to influence society and spread propaganda. In this paper, we demonstrate the possibility of such a bias injection threat by an adversary who backdoors such models with a small number of malicious data samples; the implemented backdoor is activated when special triggers exist in the input prompt of the backdoored models. On the other hand, the model's utility is preserved in the absence of the triggers, making the attack highly undetectable. We present a novel framework that enables efficient generation of poisoning samples with composite (multi-word) triggers for such an attack. Our extensive experiments using over 1 million generated images and against hundreds of fine-tuned models demonstrate the feasibility of the presented backdoor attack. We illustrate how these biases can bypass conventional detection mechanisms, highlighting the challenges in proving the existence of biases within operational constraints. Our cost analysis confirms the low financial barrier to executing such attacks, underscoring the need for robust defensive strategies against such vulnerabilities in text-to-image generation models.
- Abstract(参考訳): 安定拡散、Midjourney、DALL-E 3といった大規模テキスト条件画像生成モデルの最近の進歩は、画像生成の分野に革命をもたらし、ユーザーはテキストプロンプトから高品質でリアルな画像を作成することができるようになった。
これらの発展は、芸術的創造性と視覚的コミュニケーションを増強する一方で、敵が生成した画像に偏見を誘導する可能性、例えば、社会に影響を与えプロパガンダを広める可能性など、未発見の攻撃機会も提示している。
本稿では,少数の悪意のあるデータサンプルでそのようなモデルにバックドアを施した相手による,そのようなバイアス注入の脅威の可能性を示し,バックドアモデル入力プロンプトに特別なトリガーが存在する場合に,実装されたバックドアが起動されることを示す。
一方、モデルの実用性はトリガーがない状態で保持され、攻撃を極めて検出不能にする。
本稿では,このような攻撃に対して複合(複数単語)トリガーを用いた毒素試料の効率的な生成を可能にする新しい枠組みを提案する。
100万以上の画像と何百もの微調整されたモデルを用いた大規模な実験は、提示されたバックドア攻撃の可能性を示している。
これらのバイアスが従来の検出メカニズムを回避し、運用上の制約の中でバイアスの存在を証明する上での課題を明らかにする。
当社のコスト分析では、テキスト・ツー・画像生成モデルにおいて、このような脆弱性に対する堅牢な防御戦略の必要性が強調され、このような攻撃の実行に対する財務上の障壁が低いことが確認されている。
関連論文リスト
- FameBias: Embedding Manipulation Bias Attack in Text-to-Image Models [0.8192907805418583]
テキスト・ツー・イメージ(T2I)拡散モデルは急速に進歩し、記述と密接に一致した高品質な画像を生成することができる。
最近の研究によると、攻撃者は単純な微調整によってこれらのモデルにバイアスを埋め込むことができる。
本稿では、入力プロンプトの埋め込みを操作し、特定の公開人物を特徴とする画像を生成するT2Iバイアス攻撃であるFairBiasを紹介する。
論文 参考訳(メタデータ) (2024-12-24T09:11:37Z) - Natural Language Induced Adversarial Images [14.415478695871604]
本稿では,自然言語による逆画像攻撃手法を提案する。
中心となる考え方は、入力プロンプトが与えられた逆画像を生成するために、テキスト・ツー・イメージモデルを活用することである。
実験の結果,"foggy","humid","stretching"などの高周波意味情報が誤りを生じやすいことがわかった。
論文 参考訳(メタデータ) (2024-10-11T08:36:07Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Object-oriented backdoor attack against image captioning [40.5688859498834]
画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されている。
本稿では,トレーニングデータから画像キャプションモデルへのバックドア攻撃について検討する。
本手法は,画像キャプティングモデルのバックドア攻撃に対する弱点を証明し,画像キャプティング分野におけるバックドア攻撃に対する防御意識を高めることを期待する。
論文 参考訳(メタデータ) (2024-01-05T01:52:13Z) - Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Semantic Host-free Trojan Attack [54.25471812198403]
本稿では,意味空間に固定されているが,必ずしも画素空間に固定されていないトリガーを用いた新規なホストフリートロイア攻撃を提案する。
クリーンな入力イメージをホストとして使用して小さな無意味なトリガーパターンを担っている既存のトロイの木馬攻撃とは対照的に、我々の攻撃はトリガーを意味論的に意味のあるオブジェクトクラスに属するフルサイズのイメージとみなす。
論文 参考訳(メタデータ) (2021-10-26T05:01:22Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。