論文の概要: Backdooring Bias into Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2406.15213v2
- Date: Thu, 10 Oct 2024 21:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:05.517471
- Title: Backdooring Bias into Text-to-Image Models
- Title(参考訳): テキスト・ツー・イメージモデルへのバイアスのバックドア化
- Authors: Ali Naseh, Jaechul Roh, Eugene Bagdasaryan, Amir Houmansadr,
- Abstract要約: 敵がバックドア攻撃によって任意のバイアスを加えることで、良質なユーザーが画像を生成することさえも影響することを示した。
私たちの攻撃は、テキストプロンプトで与えられた意味情報を保存しているため、ステルス状態のままです。
我々は、現在の最先端の生成モデルが、この攻撃を安価かつあらゆる敵に対して実現可能であることを示す。
- 参考スコア(独自算出の注目度): 16.495996266157274
- License:
- Abstract: Text-conditional diffusion models, i.e. text-to-image, produce eye-catching images that represent descriptions given by a user. These images often depict benign concepts but could also carry other purposes. Specifically, visual information is easy to comprehend and could be weaponized for propaganda -- a serious challenge given widespread usage and deployment of generative models. In this paper, we show that an adversary can add an arbitrary bias through a backdoor attack that would affect even benign users generating images. While a user could inspect a generated image to comply with the given text description, our attack remains stealthy as it preserves semantic information given in the text prompt. Instead, a compromised model modifies other unspecified features of the image to add desired biases (that increase by 4-8x). Furthermore, we show how the current state-of-the-art generative models make this attack both cheap and feasible for any adversary, with costs ranging between $12-$18. We evaluate our attack over various types of triggers, adversary objectives, and biases and discuss mitigations and future work. Our code is available at https://github.com/jrohsc/Backdororing_Bias.
- Abstract(参考訳): テキスト条件拡散モデル(text-to-image)は、ユーザから与えられた記述を表すアイキャッチ画像を生成する。
これらの画像はしばしば良心を描写するが、他の目的も持てる。
具体的には、視覚情報は理解しやすく、プロパガンダのために武器化される可能性がある。
本稿では,敵対者がバックドア攻撃によって任意のバイアスを加えることで,良質なユーザでさえ画像を生成することができることを示す。
ユーザは与えられたテキスト記述に従うために生成された画像を検査できるが、この攻撃はテキストプロンプトに付与された意味情報を保存しているため、ステルス性は保たれる。
代わりに、妥協されたモデルは、画像の他の特定されていない特徴を修正して、望ましいバイアスを加える(それは4-8倍増加する)。
さらに、現在の最先端の生成モデルによって、この攻撃があらゆる敵に対して安価かつ実現可能であり、コストは12ドルから18ドルであることを示す。
様々な種類のトリガー、敵の目的、バイアスに対する攻撃を評価し、緩和と今後の作業について議論する。
私たちのコードはhttps://github.com/jrohsc/Backdororing_Bias.orgから入手可能です。
関連論文リスト
- Natural Language Induced Adversarial Images [14.415478695871604]
本稿では,自然言語による逆画像攻撃手法を提案する。
中心となる考え方は、入力プロンプトが与えられた逆画像を生成するために、テキスト・ツー・イメージモデルを活用することである。
実験の結果,"foggy","humid","stretching"などの高周波意味情報が誤りを生じやすいことがわかった。
論文 参考訳(メタデータ) (2024-10-11T08:36:07Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Object-oriented backdoor attack against image captioning [40.5688859498834]
画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されている。
本稿では,トレーニングデータから画像キャプションモデルへのバックドア攻撃について検討する。
本手法は,画像キャプティングモデルのバックドア攻撃に対する弱点を証明し,画像キャプティング分野におけるバックドア攻撃に対する防御意識を高めることを期待する。
論文 参考訳(メタデータ) (2024-01-05T01:52:13Z) - Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Semantic Host-free Trojan Attack [54.25471812198403]
本稿では,意味空間に固定されているが,必ずしも画素空間に固定されていないトリガーを用いた新規なホストフリートロイア攻撃を提案する。
クリーンな入力イメージをホストとして使用して小さな無意味なトリガーパターンを担っている既存のトロイの木馬攻撃とは対照的に、我々の攻撃はトリガーを意味論的に意味のあるオブジェクトクラスに属するフルサイズのイメージとみなす。
論文 参考訳(メタデータ) (2021-10-26T05:01:22Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。