論文の概要: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
- arxiv url: http://arxiv.org/abs/2310.16613v2
- Date: Wed, 05 Feb 2025 08:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:23:36.909977
- Title: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
- Title(参考訳): 良性プロンプトを用いたテキスト・画像モデルからの安全でない画像の能動的生成について
- Authors: Yixin Wu, Ning Yu, Michael Backes, Yun Shen, Yang Zhang,
- Abstract要約: 悪意のあるプロンプトや操作されたプロンプトは、テキスト・ツー・イメージモデルを利用して安全でない画像を生成することが知られている。
本稿では,悪質な修正テキスト・ツー・イメージ・モデルによる良性プロンプトからの安全でない画像の能動的生成について検討する。
隠蔽性と性能のバランスをとるステルス毒素攻撃法を提案する。
- 参考スコア(独自算出の注目度): 38.63253101205306
- License:
- Abstract: Malicious or manipulated prompts are known to exploit text-to-image models to generate unsafe images. Existing studies, however, focus on the passive exploitation of such harmful capabilities. In this paper, we investigate the proactive generation of unsafe images from benign prompts (e.g., a photo of a cat) through maliciously modified text-to-image models. Our preliminary investigation demonstrates that poisoning attacks are a viable method to achieve this goal but uncovers significant side effects, where unintended spread to non-targeted prompts compromises attack stealthiness. Root cause analysis identifies conceptual similarity as an important contributing factor to these side effects. To address this, we propose a stealthy poisoning attack method that balances covertness and performance. Our findings highlight the potential risks of adopting text-to-image models in real-world scenarios, thereby calling for future research and safety measures in this space.
- Abstract(参考訳): 悪意のあるプロンプトや操作されたプロンプトは、テキスト・ツー・イメージモデルを利用して安全でない画像を生成することが知られている。
しかし、既存の研究は、そのような有害な能力をパッシブに利用することに焦点を当てている。
本稿では、悪意ある修正テキスト・ツー・イメージ・モデルを用いて、良心的プロンプト(例えば猫の写真)からの安全でない画像の積極的な生成について検討する。
我々の予備的な調査は、毒殺攻撃がこの目標を達成するための有効な方法であることを示しているが、意図しない無目的のプロンプトが盗難を防ぎ、重大な副作用を明らかにする。
根本原因分析は、概念的類似性をこれらの副作用の重要な要因として認識している。
そこで本研究では,隠蔽性と性能のバランスをとるステルス中毒攻撃法を提案する。
本研究は,実世界のシナリオにテキスト・ツー・イメージ・モデルを採用するリスクを浮き彫りにし,将来的な研究・安全対策の必要性を強調した。
関連論文リスト
- CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - When Image Generation Goes Wrong: A Safety Analysis of Stable Diffusion Models [0.0]
本研究では,10種類の安定拡散モデルによる有害画像の生成能力について検討した。
これらのモデルが不適切なコンテンツを生成することによって有害なプロンプトに応答することを示す。
以上の結果から,観察されたモデルでは,拒絶行動や安全対策が完全に欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-11-23T10:42:43Z) - Imperceptible Face Forgery Attack via Adversarial Semantic Mask [59.23247545399068]
本稿では, 対向性, 可視性に優れた対向性例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。
具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:38:11Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。
我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。
その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文 参考訳(メタデータ) (2023-09-25T13:20:15Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep
Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。
一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。
画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文 参考訳(メタデータ) (2021-04-30T14:20:33Z) - Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。
本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T09:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。