論文の概要: BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models
- arxiv url: http://arxiv.org/abs/2307.16489v2
- Date: Tue, 5 Sep 2023 09:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 03:56:24.598581
- Title: BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models
- Title(参考訳): BAGM:テキスト対画像生成モデルのバックドア攻撃
- Authors: Jordan Vice, Naveed Akhtar, Richard Hartley, Ajmal Mian
- Abstract要約: テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
- 参考スコア(独自算出の注目度): 54.19289900203071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise in popularity of text-to-image generative artificial intelligence
(AI) has attracted widespread public interest. We demonstrate that this
technology can be attacked to generate content that subtly manipulates its
users. We propose a Backdoor Attack on text-to-image Generative Models (BAGM),
which upon triggering, infuses the generated images with manipulative details
that are naturally blended in the content. Our attack is the first to target
three popular text-to-image generative models across three stages of the
generative process by modifying the behaviour of the embedded tokenizer, the
language model or the image generative model. Based on the penetration level,
BAGM takes the form of a suite of attacks that are referred to as surface,
shallow and deep attacks in this article. Given the existing gap within this
domain, we also contribute a comprehensive set of quantitative metrics designed
specifically for assessing the effectiveness of backdoor attacks on
text-to-image models. The efficacy of BAGM is established by attacking
state-of-the-art generative models, using a marketing scenario as the target
domain. To that end, we contribute a dataset of branded product images. Our
embedded backdoors increase the bias towards the target outputs by more than
five times the usual, without compromising the model robustness or the
generated content utility. By exposing generative AI's vulnerabilities, we
encourage researchers to tackle these challenges and practitioners to exercise
caution when using pre-trained models. Relevant code, input prompts and
supplementary material can be found at https://github.com/JJ-Vice/BAGM, and the
dataset is available at:
https://ieee-dataport.org/documents/marketable-foods-mf-dataset.
Keywords: Generative Artificial Intelligence, Generative Models,
Text-to-Image generation, Backdoor Attacks, Trojan, Stable Diffusion.
- Abstract(参考訳): テキストから画像への生成人工知能(AI)の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを示す。
本稿では,テキストから画像への生成モデル (BAGM) に対するバックドア攻撃を提案する。
我々の攻撃は, 組込みトークン化器, 言語モデル, 画像生成モデルの動作を変更することで, 生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
浸透レベルに基づいて、bagmは、この記事で表面攻撃、浅い攻撃、深い攻撃と呼ばれる一連の攻撃の形式をとります。
この領域における既存のギャップを考慮すると、テキスト対画像モデルにおけるバックドア攻撃の有効性を評価するために特別に設計された定量的指標の包括的なセットも提供します。
BAGMの有効性は、マーケティングシナリオをターゲットドメインとして、最先端の生成モデルを攻撃することによって確立される。
そのためにブランド化された製品イメージのデータセットをコントリビュートする。
組込みバックドアは、モデルロバスト性や生成されたコンテンツユーティリティを損なうことなく、通常の5倍以上の目標出力に対するバイアスを増大させる。
生成型aiの脆弱性を明らかにすることで、研究者はこれらの課題に取り組み、事前訓練されたモデルを使用する際に注意を喚起するよう促す。
関連するコード、入力プロンプト、補足資料はhttps://github.com/JJ-Vice/BAGMで、データセットはhttps://ieee-dataport.org/documents/marketable-foods-mf-datasetで見ることができる。
キーワード:生成人工知能、生成モデル、テキスト・ツー・イメージ生成、バックドア攻撃、トロイの木馬、安定拡散。
関連論文リスト
- Stealthy Targeted Backdoor Attacks against Image Captioning [16.409633596670368]
本稿では,画像キャプションモデルに対するバックドア攻撃を標的とした新たな手法を提案する。
本手法は,物体検出に普遍摂動技術を活用することで,まず特別なトリガを学習する。
我々のアプローチは、モデルクリーンパフォーマンスに無視できる影響を与えながら、高い攻撃成功率を達成することができる。
論文 参考訳(メタデータ) (2024-06-09T18:11:06Z) - ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。
包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。
また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文 参考訳(メタデータ) (2024-05-24T07:44:27Z) - Manipulating and Mitigating Generative Model Biases without Retraining [49.60774626839712]
モデル再学習を伴わないリッチ言語埋め込み空間を利用して,T2Iモデルバイアスの動的かつ効率的な操作を提案する。
基礎ベクトル代数を利用することで、T2Iモデルの出力をシフトさせる言語モデルの埋め込みを便利に制御できることを示す。
副産物として、この制御は正確なプロンプト工学の一形態として機能し、通常のテキストプロンプトを使って一般的には理解できない画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T07:33:30Z) - Generated Distributions Are All You Need for Membership Inference
Attacks Against Generative Models [29.135008138824023]
本稿では,様々な生成モデルに対する最初の一般化されたメンバシップ推論攻撃を提案する。
実験では、全ての生成モデルが攻撃に対して脆弱であることを検証した。
論文 参考訳(メタデータ) (2023-10-30T10:21:26Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion
Models [69.20464255450788]
拡散モデル(英: Diffusion Models, DM)は、可逆的ノイズ付加から可逆的腐敗過程を学習し、雑音を除去する手法である。
最近の研究では、基本的な無条件DMがバックドア注入に弱いことが示されている。
本稿では,DMのバックドア分析の現在の範囲を広げるために,統合されたバックドア攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-12T05:14:13Z) - Rickrolling the Artist: Injecting Backdoors into Text Encoders for
Text-to-Image Synthesis [16.421253324649555]
テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
論文 参考訳(メタデータ) (2022-11-04T12:36:36Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Membership Inference Attacks Against Text-to-image Generation Models [23.39695974954703]
本稿では,メンバシップ推論のレンズを用いたテキスト・画像生成モデルの最初のプライバシ解析を行う。
本稿では,メンバーシップ情報に関する3つの重要な直観と,それに応じて4つの攻撃手法を設計する。
提案した攻撃はいずれも大きな性能を達成でき、場合によっては精度が1に近い場合もあり、既存のメンバーシップ推論攻撃よりもはるかに深刻なリスクとなる。
論文 参考訳(メタデータ) (2022-10-03T14:31:39Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。