Fugu-MT 論文翻訳(概要): On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts

論文の概要: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts

arxiv url: http://arxiv.org/abs/2310.16613v2
Date: Wed, 05 Feb 2025 08:16:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 18:38:29.033498
Title: On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
Title（参考訳）: 良性プロンプトを用いたテキスト・画像モデルからの安全でない画像の能動的生成について
Authors: Yixin Wu, Ning Yu, Michael Backes, Yun Shen, Yang Zhang,
Abstract要約: 悪意のあるプロンプトや操作されたプロンプトは、テキスト・ツー・イメージモデルを利用して安全でない画像を生成することが知られている。本稿では,悪質な修正テキスト・ツー・イメージ・モデルによる良性プロンプトからの安全でない画像の能動的生成について検討する。隠蔽性と性能のバランスをとるステルス毒素攻撃法を提案する。
参考スコア（独自算出の注目度）: 38.63253101205306
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Malicious or manipulated prompts are known to exploit text-to-image models to generate unsafe images. Existing studies, however, focus on the passive exploitation of such harmful capabilities. In this paper, we investigate the proactive generation of unsafe images from benign prompts (e.g., a photo of a cat) through maliciously modified text-to-image models. Our preliminary investigation demonstrates that poisoning attacks are a viable method to achieve this goal but uncovers significant side effects, where unintended spread to non-targeted prompts compromises attack stealthiness. Root cause analysis identifies conceptual similarity as an important contributing factor to these side effects. To address this, we propose a stealthy poisoning attack method that balances covertness and performance. Our findings highlight the potential risks of adopting text-to-image models in real-world scenarios, thereby calling for future research and safety measures in this space.
Abstract（参考訳）: 悪意のあるプロンプトや操作されたプロンプトは、テキスト・ツー・イメージモデルを利用して安全でない画像を生成することが知られている。しかし、既存の研究は、そのような有害な能力をパッシブに利用することに焦点を当てている。本稿では、悪意ある修正テキスト・ツー・イメージ・モデルを用いて、良心的プロンプト(例えば猫の写真)からの安全でない画像の積極的な生成について検討する。我々の予備的な調査は、毒殺攻撃がこの目標を達成するための有効な方法であることを示しているが、意図しない無目的のプロンプトが盗難を防ぎ、重大な副作用を明らかにする。根本原因分析は、概念的類似性をこれらの副作用の重要な要因として認識している。そこで本研究では,隠蔽性と性能のバランスをとるステルス中毒攻撃法を提案する。本研究は,実世界のシナリオにテキスト・ツー・イメージ・モデルを採用するリスクを浮き彫りにし,将来的な研究・安全対策の必要性を強調した。

関連論文リスト

Clean Image May be Dangerous: Data Poisoning Attacks Against Deep Hashing [71.30876587855867]
クリーンなクエリ画像でさえ危険であり、望ましくない画像や違法な画像などの悪意のあるターゲット検索結果が誘導される。具体的には,まず,対象の深部ハッシュモデルの挙動をシミュレートするために代理モデルを訓練する。そこで, 毒性画像を生成するため, 厳密な勾配マッチング戦略を提案する。
論文参考訳（メタデータ） (2025-03-27T07:54:27Z)
CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文参考訳（メタデータ） (2025-01-09T16:43:21Z)
When Image Generation Goes Wrong: A Safety Analysis of Stable Diffusion Models [0.0]
本研究では,10種類の安定拡散モデルによる有害画像の生成能力について検討した。これらのモデルが不適切なコンテンツを生成することによって有害なプロンプトに応答することを示す。以上の結果から,観察されたモデルでは,拒絶行動や安全対策が完全に欠如していることが示唆された。
論文参考訳（メタデータ） (2024-11-23T10:42:43Z)
Defending Text-to-image Diffusion Models: Surprising Efficacy of Textual Perturbations Against Backdoor Attacks [7.777211995715721]
テキスト間拡散モデルに対する最先端のバックドア攻撃は、驚くほど単純な防御戦略であるテキスト摂動によって効果的に軽減できることを示す。実験により、テキストによる摂動は、最先端のバックドア攻撃に対する防御に有効であり、生成品質に対する犠牲は最小限であることが示された。
論文参考訳（メタデータ） (2024-08-28T11:36:43Z)
Backdooring Bias ($B^2$) into Stable Diffusion Models [13.39575393090411]
本研究では,敵が対象モデルに任意のバイアスを注入できる攻撃ベクトルについて検討する。相手は、推論中に良質なユーザーが不注意にアクティベートできる単語の一般的なシーケンスを選択することができる。 20万以上の生成された画像と何百もの微調整されたモデルを用いた実験は、提示されたバックドア攻撃の可能性を示している。
論文参考訳（メタデータ） (2024-06-21T14:53:19Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文参考訳（メタデータ） (2024-04-21T16:35:16Z)
Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文参考訳（メタデータ） (2024-01-16T12:15:39Z)
Object-oriented backdoor attack against image captioning [40.5688859498834]
画像分類タスクに対するバックドア攻撃は広く研究され、成功したことが証明されている。本稿では,トレーニングデータから画像キャプションモデルへのバックドア攻撃について検討する。本手法は,画像キャプティングモデルのバックドア攻撃に対する弱点を証明し,画像キャプティング分野におけるバックドア攻撃に対する防御意識を高めることを期待する。
論文参考訳（メタデータ） (2024-01-05T01:52:13Z)
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文参考訳（メタデータ） (2023-12-08T09:08:50Z)
Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models [26.301156075883483]
本研究は, 発生モデルにおいて, 毒殺攻撃が有効であることを示す。我々は、最適化されたプロンプト特異的中毒攻撃であるNightshadeを紹介する。我々は、Nightshade攻撃がテキスト・ツー・イメージ生成モデルにおける一般的な特徴を不安定にすることができることを示す。
論文参考訳（メタデータ） (2023-10-20T21:54:10Z)
SurrogatePrompt: Bypassing the Safety Filter of Text-to-Image Models via Substitution [21.93748586123046]
我々は、Midjourneyに対する最初の即時攻撃を開発し、その結果、豊富なNSFW画像が生成される。我々のフレームワークであるSurrogatePromptは、大規模言語モデル、画像からテキスト、画像から画像へのモジュールを利用して、攻撃プロンプトを体系的に生成する。その結果、Midjourneyのプロプライエタリな安全フィルタを攻撃プロンプトでバイパスして88%の成功率を明らかにした。
論文参考訳（メタデータ） (2023-09-25T13:20:15Z)
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文参考訳（メタデータ） (2023-09-12T11:19:36Z)
Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文参考訳（メタデータ） (2021-06-21T01:57:14Z)
Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文参考訳（メタデータ） (2021-04-30T14:20:33Z)
Adversarial Examples Detection beyond Image Space [88.7651422751216]
摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。本研究では,画像ストリームが画素アーティファクトに注目し,勾配ストリームが信頼度アーティファクトに対応する2ストリームアーキテクチャによる画像空間を超えた手法を提案する。
論文参考訳（メタデータ） (2021-02-23T09:55:03Z)
Backdooring and Poisoning Neural Networks with Image-Scaling Attacks [15.807243762876901]
バックドアと毒殺攻撃を隠蔽するための新しい戦略を提案する。われわれのアプローチは、最近の画像スケーリングに対する攻撃に基づいている。画像スケーリング攻撃と組み合わせれば,バックドアや中毒も同じように有効であることを示す。
論文参考訳（メタデータ） (2020-03-19T08:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。