論文の概要: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
- arxiv url: http://arxiv.org/abs/2310.16613v2
- Date: Wed, 05 Feb 2025 08:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:23:36.909977
- Title: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
- Title(参考訳): 良性プロンプトを用いたテキスト・画像モデルからの安全でない画像の能動的生成について
- Authors: Yixin Wu, Ning Yu, Michael Backes, Yun Shen, Yang Zhang,
- Abstract要約: 悪意のあるプロンプトや操作されたプロンプトは、テキスト・ツー・イメージモデルを利用して安全でない画像を生成することが知られている。
本稿では,悪質な修正テキスト・ツー・イメージ・モデルによる良性プロンプトからの安全でない画像の能動的生成について検討する。
隠蔽性と性能のバランスをとるステルス毒素攻撃法を提案する。
- 参考スコア(独自算出の注目度): 38.63253101205306
- License:
- Abstract: Malicious or manipulated prompts are known to exploit text-to-image models to generate unsafe images. Existing studies, however, focus on the passive exploitation of such harmful capabilities. In this paper, we investigate the proactive generation of unsafe images from benign prompts (e.g., a photo of a cat) through maliciously modified text-to-image models. Our preliminary investigation demonstrates that poisoning attacks are a viable method to achieve this goal but uncovers significant side effects, where unintended spread to non-targeted prompts compromises attack stealthiness. Root cause analysis identifies conceptual similarity as an important contributing factor to these side effects. To address this, we propose a stealthy poisoning attack method that balances covertness and performance. Our findings highlight the potential risks of adopting text-to-image models in real-world scenarios, thereby calling for future research and safety measures in this space.
- Abstract(参考訳): 悪意のあるプロンプトや操作されたプロンプトは、テキスト・ツー・イメージモデルを利用して安全でない画像を生成することが知られている。
しかし、既存の研究は、そのような有害な能力をパッシブに利用することに焦点を当てている。
本稿では、悪意ある修正テキスト・ツー・イメージ・モデルを用いて、良心的プロンプト(例えば猫の写真)からの安全でない画像の積極的な生成について検討する。
我々の予備的な調査は、毒殺攻撃がこの目標を達成するための有効な方法であることを示しているが、意図しない無目的のプロンプトが盗難を防ぎ、重大な副作用を明らかにする。
根本原因分析は、概念的類似性をこれらの副作用の重要な要因として認識している。
そこで本研究では,隠蔽性と性能のバランスをとるステルス中毒攻撃法を提案する。
本研究は,実世界のシナリオにテキスト・ツー・イメージ・モデルを採用するリスクを浮き彫りにし,将来的な研究・安全対策の必要性を強調した。
関連論文リスト
- Defending Text-to-image Diffusion Models: Surprising Efficacy of Textual Perturbations Against Backdoor Attacks [7.777211995715721]
テキスト間拡散モデルに対する最先端のバックドア攻撃は、驚くほど単純な防御戦略であるテキスト摂動によって効果的に軽減できることを示す。
実験により、テキストによる摂動は、最先端のバックドア攻撃に対する防御に有効であり、生成品質に対する犠牲は最小限であることが示された。
論文 参考訳(メタデータ) (2024-08-28T11:36:43Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Object-oriented backdoor attack against image captioning [40.5688859498834]
画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されている。
本稿では,トレーニングデータから画像キャプションモデルへのバックドア攻撃について検討する。
本手法は,画像キャプティングモデルのバックドア攻撃に対する弱点を証明し,画像キャプティング分野におけるバックドア攻撃に対する防御意識を高めることを期待する。
論文 参考訳(メタデータ) (2024-01-05T01:52:13Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models [26.301156075883483]
本研究は, 発生モデルにおいて, 毒殺攻撃が有効であることを示す。
我々は、最適化されたプロンプト特異的中毒攻撃であるNightshadeを紹介する。
我々は、Nightshade攻撃がテキスト・ツー・イメージ生成モデルにおける一般的な特徴を不安定にすることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T21:54:10Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。
また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文 参考訳(メタデータ) (2021-06-21T01:57:14Z) - Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep
Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。
一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。
画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文 参考訳(メタデータ) (2021-04-30T14:20:33Z) - Backdooring and Poisoning Neural Networks with Image-Scaling Attacks [15.807243762876901]
バックドアと毒殺攻撃を隠蔽するための新しい戦略を提案する。
われわれのアプローチは、最近の画像スケーリングに対する攻撃に基づいている。
画像スケーリング攻撃と組み合わせれば,バックドアや中毒も同じように有効であることを示す。
論文 参考訳(メタデータ) (2020-03-19T08:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。