論文の概要: Backdooring Bias into Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2406.15213v2
- Date: Thu, 10 Oct 2024 21:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:05.517471
- Title: Backdooring Bias into Text-to-Image Models
- Title(参考訳): テキスト・ツー・イメージモデルへのバイアスのバックドア化
- Authors: Ali Naseh, Jaechul Roh, Eugene Bagdasaryan, Amir Houmansadr,
- Abstract要約: 敵がバックドア攻撃によって任意のバイアスを加えることで、良質なユーザーが画像を生成することさえも影響することを示した。
私たちの攻撃は、テキストプロンプトで与えられた意味情報を保存しているため、ステルス状態のままです。
我々は、現在の最先端の生成モデルが、この攻撃を安価かつあらゆる敵に対して実現可能であることを示す。
- 参考スコア(独自算出の注目度): 16.495996266157274
- License:
- Abstract: Text-conditional diffusion models, i.e. text-to-image, produce eye-catching images that represent descriptions given by a user. These images often depict benign concepts but could also carry other purposes. Specifically, visual information is easy to comprehend and could be weaponized for propaganda -- a serious challenge given widespread usage and deployment of generative models. In this paper, we show that an adversary can add an arbitrary bias through a backdoor attack that would affect even benign users generating images. While a user could inspect a generated image to comply with the given text description, our attack remains stealthy as it preserves semantic information given in the text prompt. Instead, a compromised model modifies other unspecified features of the image to add desired biases (that increase by 4-8x). Furthermore, we show how the current state-of-the-art generative models make this attack both cheap and feasible for any adversary, with costs ranging between $12-$18. We evaluate our attack over various types of triggers, adversary objectives, and biases and discuss mitigations and future work. Our code is available at https://github.com/jrohsc/Backdororing_Bias.
- Abstract(参考訳): テキスト条件拡散モデル(text-to-image)は、ユーザから与えられた記述を表すアイキャッチ画像を生成する。
これらの画像はしばしば良心を描写するが、他の目的も持てる。
具体的には、視覚情報は理解しやすく、プロパガンダのために武器化される可能性がある。
本稿では,敵対者がバックドア攻撃によって任意のバイアスを加えることで,良質なユーザでさえ画像を生成することができることを示す。
ユーザは与えられたテキスト記述に従うために生成された画像を検査できるが、この攻撃はテキストプロンプトに付与された意味情報を保存しているため、ステルス性は保たれる。
代わりに、妥協されたモデルは、画像の他の特定されていない特徴を修正して、望ましいバイアスを加える(それは4-8倍増加する)。
さらに、現在の最先端の生成モデルによって、この攻撃があらゆる敵に対して安価かつ実現可能であり、コストは12ドルから18ドルであることを示す。
様々な種類のトリガー、敵の目的、バイアスに対する攻撃を評価し、緩和と今後の作業について議論する。
私たちのコードはhttps://github.com/jrohsc/Backdororing_Bias.orgから入手可能です。
関連論文リスト
- EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - Stealthy Targeted Backdoor Attacks against Image Captioning [16.409633596670368]
本稿では,画像キャプションモデルに対するバックドア攻撃を標的とした新たな手法を提案する。
本手法は,物体検出に普遍摂動技術を活用することで,まず特別なトリガを学習する。
我々のアプローチは、モデルクリーンパフォーマンスに無視できる影響を与えながら、高い攻撃成功率を達成することができる。
論文 参考訳(メタデータ) (2024-06-09T18:11:06Z) - Invisible Backdoor Attacks on Diffusion Models [22.08671395877427]
近年の研究では、バックドア攻撃に対する拡散モデルの脆弱性が明らかにされている。
本稿では,目に見えないトリガーの獲得と,挿入されたバックドアのステルスネスとレジリエンスの向上を目的とした,革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-02T17:43:19Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - LFAA: Crafting Transferable Targeted Adversarial Examples with
Low-Frequency Perturbations [25.929492841042666]
本稿では,トランスファー可能な対象対向例を生成するための新しい手法を提案する。
画像の高周波成分の摂動にディープニューラルネットワークの脆弱性を利用する。
提案手法は最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-10-31T04:54:55Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - Text-to-Image Diffusion Models can be Easily Backdoored through
Multimodal Data Poisoning [29.945013694922924]
本稿では,多様なセマンティックレベルで画像合成を行う一般的なマルチモーダル・バックドア・アタック・フレームワークであるBadT2Iを提案する。
具体的には、Pixel-Backdoor、Object-Backdoor、Style-Backdoorの3つのレベルに対してバックドア攻撃を行います。
正規化損失を利用して,大規模なテキスト・画像拡散モデルにバックドアを効率よく注入する。
論文 参考訳(メタデータ) (2023-05-07T03:21:28Z) - Data Forensics in Diffusion Models: A Systematic Analysis of Membership
Privacy [62.16582309504159]
本研究では,拡散モデルに対するメンバシップ推論攻撃の系統的解析を開発し,各攻撃シナリオに適した新しい攻撃手法を提案する。
提案手法は容易に入手可能な量を利用して,現実的なシナリオにおいてほぼ完全な攻撃性能 (>0.9 AUCROC) を達成することができる。
論文 参考訳(メタデータ) (2023-02-15T17:37:49Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。