論文の概要: Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided
Image Generation Models
- arxiv url: http://arxiv.org/abs/2211.02408v1
- Date: Fri, 4 Nov 2022 12:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 15:52:52.436766
- Title: Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided
Image Generation Models
- Title(参考訳): rickrolling the artist: テキスト誘導画像生成モデルに目に見えないバックドアを注入する
- Authors: Lukas Struppek, Dominik Hintersdorf, Kristian Kersting
- Abstract要約: テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
- 参考スコア(独自算出の注目度): 16.421253324649555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-to-image synthesis currently enjoys great popularity among
researchers and the general public, the security of these models has been
neglected so far. Many text-guided image generation models rely on pre-trained
text encoders from external sources, and their users trust that the retrieved
models will behave as promised. Unfortunately, this might not be the case. We
introduce backdoor attacks against text-guided generative models and
demonstrate that their text encoders pose a major tampering risk. Our attacks
only slightly alter an encoder so that no suspicious model behavior is apparent
for image generations with clean prompts. By then inserting a single non-Latin
character into the prompt, the adversary can trigger the model to either
generate images with pre-defined attributes or images following a hidden,
potentially malicious description. We empirically demonstrate the high
effectiveness of our attacks on Stable Diffusion and highlight that the
injection process of a single backdoor takes less than two minutes. Besides
phrasing our approach solely as an attack, it can also force an encoder to
forget phrases related to certain concepts, such as nudity or violence, and
help to make image generation safer.
- Abstract(参考訳): 現在、テキストと画像の合成は研究者や一般大衆の間では非常に人気があるが、これらのモデルの安全性は無視されている。
多くのテキスト誘導画像生成モデルは、事前訓練された外部ソースからのテキストエンコーダに依存しており、ユーザーは検索されたモデルが約束通りに振る舞うと信じている。
残念ながら、そうではないかもしれない。
我々は,テキスト誘導生成モデルに対するバックドア攻撃を導入し,テキストエンコーダが大きな改ざんリスクをもたらすことを示した。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
その後、プロンプトに1つの非ラテン文字を挿入することで、敵はモデルをトリガーして、事前に定義された属性を持つイメージか、隠れた潜在的に有害な記述に従うイメージを生成することができる。
安定拡散に対する攻撃の有効性を実証的に実証し、単一のバックドアの注入に要する時間は2分未満であることを強調した。
このアプローチを攻撃としてのみ表現するだけでなく、ヌードや暴力といった特定の概念に関連するフレーズをエンコーダに忘れさせ、画像生成をより安全にするのに役立つ。
関連論文リスト
- Backdooring Bias into Text-to-Image Models [16.495996266157274]
敵がバックドア攻撃によって任意のバイアスを加えることで、良質なユーザーが画像を生成することさえも影響することを示した。
私たちの攻撃は、テキストプロンプトで与えられた意味情報を保存しているため、ステルス状態のままです。
我々は、現在の最先端の生成モデルが、この攻撃を安価かつあらゆる敵に対して実現可能であることを示す。
論文 参考訳(メタデータ) (2024-06-21T14:53:19Z) - Stealthy Targeted Backdoor Attacks against Image Captioning [16.409633596670368]
本稿では,画像キャプションモデルに対するバックドア攻撃を標的とした新たな手法を提案する。
本手法は,物体検出に普遍摂動技術を活用することで,まず特別なトリガを学習する。
我々のアプローチは、モデルクリーンパフォーマンスに無視できる影響を与えながら、高い攻撃成功率を達成することができる。
論文 参考訳(メタデータ) (2024-06-09T18:11:06Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。
攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文 参考訳(メタデータ) (2023-06-13T07:35:28Z) - Securing Deep Generative Models with Universal Adversarial Signature [69.51685424016055]
深い生成モデルは、その潜在的な誤用のために社会に脅威をもたらす。
本稿では,任意の事前学習型生成モデルに普遍的逆数シグネチャを注入することを提案する。
提案手法は, FFHQ と ImageNet のデータセット上で, 様々な最先端生成モデルを用いて検証する。
論文 参考訳(メタデータ) (2023-05-25T17:59:01Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。
BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。
私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。