Fugu-MT 論文翻訳(概要): Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models

論文の概要: Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models

arxiv url: http://arxiv.org/abs/2211.02408v1
Date: Fri, 4 Nov 2022 12:36:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 15:52:52.436766
Title: Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models
Title（参考訳）: rickrolling the artist: テキスト誘導画像生成モデルに目に見えないバックドアを注入する
Authors: Lukas Struppek, Dominik Hintersdorf, Kristian Kersting
Abstract要約: テキスト誘導生成モデルに対するバックドアアタックを導入する。我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。
参考スコア（独自算出の注目度）: 16.421253324649555
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While text-to-image synthesis currently enjoys great popularity among researchers and the general public, the security of these models has been neglected so far. Many text-guided image generation models rely on pre-trained text encoders from external sources, and their users trust that the retrieved models will behave as promised. Unfortunately, this might not be the case. We introduce backdoor attacks against text-guided generative models and demonstrate that their text encoders pose a major tampering risk. Our attacks only slightly alter an encoder so that no suspicious model behavior is apparent for image generations with clean prompts. By then inserting a single non-Latin character into the prompt, the adversary can trigger the model to either generate images with pre-defined attributes or images following a hidden, potentially malicious description. We empirically demonstrate the high effectiveness of our attacks on Stable Diffusion and highlight that the injection process of a single backdoor takes less than two minutes. Besides phrasing our approach solely as an attack, it can also force an encoder to forget phrases related to certain concepts, such as nudity or violence, and help to make image generation safer.
Abstract（参考訳）: 現在、テキストと画像の合成は研究者や一般大衆の間では非常に人気があるが、これらのモデルの安全性は無視されている。多くのテキスト誘導画像生成モデルは、事前訓練された外部ソースからのテキストエンコーダに依存しており、ユーザーは検索されたモデルが約束通りに振る舞うと信じている。残念ながら、そうではないかもしれない。我々は,テキスト誘導生成モデルに対するバックドア攻撃を導入し,テキストエンコーダが大きな改ざんリスクをもたらすことを示した。我々の攻撃はエンコーダをわずかに変更するだけで、クリーンなプロンプトで画像生成に不審なモデル動作が明らかになることはない。その後、プロンプトに1つの非ラテン文字を挿入することで、敵はモデルをトリガーして、事前に定義された属性を持つイメージか、隠れた潜在的に有害な記述に従うイメージを生成することができる。安定拡散に対する攻撃の有効性を実証的に実証し、単一のバックドアの注入に要する時間は2分未満であることを強調した。このアプローチを攻撃としてのみ表現するだけでなく、ヌードや暴力といった特定の概念に関連するフレーズをエンコーダに忘れさせ、画像生成をより安全にするのに役立つ。

関連論文リスト

Towards Invisible Backdoor Attack on Text-to-Image Diffusion Model [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。 Invisible Backdoor Attack (IBA) を提案する。
論文参考訳（メタデータ） (2025-03-22T10:41:46Z)
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models [61.56740897898055]
本稿では,テキストから画像への拡散モデルを操作する新しいデータ中毒手法であるSilent Branding Attackを紹介する。トレーニングデータに特定の視覚パターンが繰り返し現れると、モデルはその出力で自然にそれを再現することを学ぶ。我々は、ロゴを元の画像に不当に注入し、自然にブレンドし、検出されないようにする自動データ中毒アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-03-12T17:21:57Z)
Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2025-02-06T12:17:35Z)
Backdooring Bias into Text-to-Image Models [16.495996266157274]
敵がバックドア攻撃によって任意のバイアスを加えることで、良質なユーザーが画像を生成することさえも影響することを示した。私たちの攻撃は、テキストプロンプトで与えられた意味情報を保存しているため、ステルス状態のままです。我々は、現在の最先端の生成モデルが、この攻撃を安価かつあらゆる敵に対して実現可能であることを示す。
論文参考訳（メタデータ） (2024-06-21T14:53:19Z)
Stealthy Targeted Backdoor Attacks against Image Captioning [16.409633596670368]
本稿では,画像キャプションモデルに対するバックドア攻撃を標的とした新たな手法を提案する。本手法は,物体検出に普遍摂動技術を活用することで,まず特別なトリガを学習する。我々のアプローチは、モデルクリーンパフォーマンスに無視できる影響を与えながら、高い攻撃成功率を達成することができる。
論文参考訳（メタデータ） (2024-06-09T18:11:06Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
Backdooring Textual Inversion for Concept Censorship [34.84218971929207]
本稿では、テキスト・インバージョン(TI)と呼ばれるパーソナライズ技術に焦点を当てる。 TIは特定のオブジェクトに関する詳細な情報を含む単語を埋め込む。 TIモデルの概念検閲を実現するために, TI埋め込みにバックドアを注入することを提案する。
論文参考訳（メタデータ） (2023-08-21T13:39:04Z)
BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文参考訳（メタデータ） (2023-07-31T08:34:24Z)
I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文参考訳（メタデータ） (2023-06-13T07:35:28Z)
Securing Deep Generative Models with Universal Adversarial Signature [69.51685424016055]
深い生成モデルは、その潜在的な誤用のために社会に脅威をもたらす。本稿では,任意の事前学習型生成モデルに普遍的逆数シグネチャを注入することを提案する。提案手法は, FFHQ と ImageNet のデータセット上で, 様々な最先端生成モデルを用いて検証する。
論文参考訳（メタデータ） (2023-05-25T17:59:01Z)
Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。 BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文参考訳（メタデータ） (2023-03-27T19:23:33Z)
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文参考訳（メタデータ） (2023-01-31T18:10:38Z)
Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis [33.080261792998826]
テキスト・ツー・イメージ合成のモデルは近年,アカデミックや一般大衆から多くの関心を集めている。テキスト記述に1文字の非ラテン語文字を挿入するだけで、共通のモデルが生成した画像の文化的ステレオタイプやバイアスを反映することを示す。本稿では,テキストエンコーダを微調整する新しいホモグリフアンラーニング手法を提案する。
論文参考訳（メタデータ） (2022-09-19T09:48:17Z)
Adversarial Watermarking Transformer: Towards Tracing Text Provenance with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。 AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文参考訳（メタデータ） (2020-09-07T11:01:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。