論文の概要: GuardT2I: Defending Text-to-Image Models from Adversarial Prompts
- arxiv url: http://arxiv.org/abs/2403.01446v1
- Date: Sun, 3 Mar 2024 09:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:29:42.940935
- Title: GuardT2I: Defending Text-to-Image Models from Adversarial Prompts
- Title(参考訳): GuardT2I: 敵対的プロンプトからテキストから画像モデルを守る
- Authors: Yijun Yang, Ruiyuan Gao, Xiao Yang, Jianyuan Zhong, Qiang Xu
- Abstract要約: GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチである。
実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
- 参考スコア(独自算出の注目度): 17.50653920106002
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in Text-to-Image (T2I) models have raised significant
safety concerns about their potential misuse for generating inappropriate or
Not-Safe-For-Work (NSFW) contents, despite existing countermeasures such as
NSFW classifiers or model fine-tuning for inappropriate concept removal.
Addressing this challenge, our study unveils GuardT2I, a novel moderation
framework that adopts a generative approach to enhance T2I models' robustness
against adversarial prompts. Instead of making a binary classification,
GuardT2I utilizes a Large Language Model (LLM) to conditionally transform text
guidance embeddings within the T2I models into natural language for effective
adversarial prompt detection, without compromising the models' inherent
performance. Our extensive experiments reveal that GuardT2I outperforms leading
commercial solutions like OpenAI-Moderation and Microsoft Azure Moderator by a
significant margin across diverse adversarial scenarios.
- Abstract(参考訳): 最近のtext-to-image(t2i)モデルの進歩は、nsfw(nsfw分類器)や不適切な概念除去のためのモデルの微調整といった既存の対策にもかかわらず、不適切なまたは不適切な作業のためのコンテンツを生成する際の潜在的な誤用に関する重大な安全上の懸念を引き起こした。
この課題に対処するため,本研究では,T2Iモデルの対向的プロンプトに対する堅牢性を高めるために,新たなモデレーションフレームワークであるGuardT2Iを公表した。
バイナリ分類を行う代わりに、GardageT2IはLarge Language Model(LLM)を使用して、T2Iモデル内のテキストガイダンスの埋め込みを、モデル固有の性能を損なうことなく、効果的な敵の迅速な検出のために自然言語に変換する。
大規模な実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも、さまざまな敵のシナリオで大きな差があります。
関連論文リスト
- Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
Latent Guardは、テキスト・ツー・画像生成における安全性対策を改善するために設計されたフレームワークである。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダ上に潜伏空間を学習する。
提案するフレームワークは,タスク固有のデータ生成パイプラインで構成されている。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Improving Text-to-Image Consistency via Automatic Prompt Optimization [26.2587505265501]
我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。
当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
論文 参考訳(メタデータ) (2024-03-26T15:42:01Z) - Discriminative Probing and Tuning for Text-to-Image Generation [129.39674951747412]
テキスト・ツー・イメージ生成(T2I)は、しばしば、生成された画像における関係の混乱のようなテキスト・イメージの誤調整問題に直面している。
本稿では,T2Iモデルの識別能力を向上し,より正確なテキストと画像のアライメントを実現することを提案する。
本稿では,T2Iモデル上に構築された識別アダプターを用いて,2つの代表課題における識別能力を探索し,テキスト画像のアライメントを改善するために識別微調整を利用する。
論文 参考訳(メタデータ) (2024-03-07T08:37:33Z) - Towards Implicit Prompt For Text-To-Image Models [58.90396979973776]
本稿では,テキスト・トゥ・イメージ(T2I)モデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、暗黙のプロンプトのパフォーマンスと影響について調査する。
実験結果から,T2Iモデルは暗黙のプロンプトで示される様々なターゲットシンボルを正確に生成できることがわかった。
論文 参考訳(メタデータ) (2024-03-04T15:21:51Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [29.31648048610413]
ブラックボックスシナリオにおける安全なT2I生成のための最初のユニバーサルプロンプトを提案する。
提案手法は,不適切な画像を生成する際に,様々なT2Iモデルの有効性を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - MMA-Diffusion: MultiModal Attack on Diffusion Models [32.67807098568781]
MMA-Diffusionは、T2Iモデルのセキュリティに顕著で現実的な脅威をもたらす。
オープンソースモデルと商用オンラインサービスの両方において、現在の防御措置を回避している。
論文 参考訳(メタデータ) (2023-11-29T10:39:53Z) - Adversarial Prompt Tuning for Vision-Language Models [90.89469048482249]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z) - Adversarial Nibbler: A Data-Centric Challenge for Improving the Safety
of Text-to-Image Models [6.475537049815622]
Adversarial Nibblerはデータ中心のチャレンジであり、DataPerfチャレンジスイートの一部として、KaggleとMLCommonsが組織し、サポートしている。
論文 参考訳(メタデータ) (2023-05-22T15:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。