論文の概要: Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided
Image Generation Models
- arxiv url: http://arxiv.org/abs/2211.02408v1
- Date: Fri, 4 Nov 2022 12:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 15:52:52.436766
- Title: Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided
Image Generation Models
- Title(参考訳): rickrolling the artist: テキスト誘導画像生成モデルに目に見えないバックドアを注入する
- Authors: Lukas Struppek, Dominik Hintersdorf, Kristian Kersting
- Abstract要約: テキスト誘導生成モデルに対するバックドアアタックを導入する。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
- 参考スコア(独自算出の注目度): 16.421253324649555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-to-image synthesis currently enjoys great popularity among
researchers and the general public, the security of these models has been
neglected so far. Many text-guided image generation models rely on pre-trained
text encoders from external sources, and their users trust that the retrieved
models will behave as promised. Unfortunately, this might not be the case. We
introduce backdoor attacks against text-guided generative models and
demonstrate that their text encoders pose a major tampering risk. Our attacks
only slightly alter an encoder so that no suspicious model behavior is apparent
for image generations with clean prompts. By then inserting a single non-Latin
character into the prompt, the adversary can trigger the model to either
generate images with pre-defined attributes or images following a hidden,
potentially malicious description. We empirically demonstrate the high
effectiveness of our attacks on Stable Diffusion and highlight that the
injection process of a single backdoor takes less than two minutes. Besides
phrasing our approach solely as an attack, it can also force an encoder to
forget phrases related to certain concepts, such as nudity or violence, and
help to make image generation safer.
- Abstract(参考訳): 現在、テキストと画像の合成は研究者や一般大衆の間では非常に人気があるが、これらのモデルの安全性は無視されている。
多くのテキスト誘導画像生成モデルは、事前訓練された外部ソースからのテキストエンコーダに依存しており、ユーザーは検索されたモデルが約束通りに振る舞うと信じている。
残念ながら、そうではないかもしれない。
我々は,テキスト誘導生成モデルに対するバックドア攻撃を導入し,テキストエンコーダが大きな改ざんリスクをもたらすことを示した。
我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
その後、プロンプトに1つの非ラテン文字を挿入することで、敵はモデルをトリガーして、事前に定義された属性を持つイメージか、隠れた潜在的に有害な記述に従うイメージを生成することができる。
安定拡散に対する攻撃の有効性を実証的に実証し、単一のバックドアの注入に要する時間は2分未満であることを強調した。
このアプローチを攻撃としてのみ表現するだけでなく、ヌードや暴力といった特定の概念に関連するフレーズをエンコーダに忘れさせ、画像生成をより安全にするのに役立つ。
関連論文リスト
- Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。
TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。
TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文 参考訳(メタデータ) (2023-08-21T13:39:04Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。
攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文 参考訳(メタデータ) (2023-06-13T07:35:28Z) - Securing Deep Generative Models with Universal Adversarial Signature [69.51685424016055]
深い生成モデルは、その潜在的な誤用のために社会に脅威をもたらす。
本稿では,任意の事前学習型生成モデルに普遍的逆数シグネチャを注入することを提案する。
提案手法は, FFHQ と ImageNet のデータセット上で, 様々な最先端生成モデルを用いて検証する。
論文 参考訳(メタデータ) (2023-05-25T17:59:01Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。
BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。
私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z) - Generative Model-Based Attack on Learnable Image Encryption for
Privacy-Preserving Deep Learning [14.505867475659276]
本稿では,プライバシ保護深層学習のための学習可能な画像暗号化手法に対する,新たな生成モデルに基づく攻撃を提案する。
我々は、StyleGANベースモデルと潜伏拡散ベースモデルという、最先端の2つの生成モデルを使用している。
その結果,提案手法により再構成された画像は,通常の画像と知覚的に類似していることがわかった。
論文 参考訳(メタデータ) (2023-03-09T05:00:17Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis [33.080261792998826]
テキスト・ツー・イメージ合成のモデルは近年,アカデミックや一般大衆から多くの関心を集めている。
テキスト記述に1文字の非ラテン語文字を挿入するだけで、共通のモデルが生成した画像の文化的ステレオタイプやバイアスを反映することを示す。
本稿では,テキストエンコーダを微調整する新しいホモグリフアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-09-19T09:48:17Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。