論文の概要: Unified Prompt Attack Against Text-to-Image Generation Models
- arxiv url: http://arxiv.org/abs/2502.16423v1
- Date: Sun, 23 Feb 2025 03:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:20.052176
- Title: Unified Prompt Attack Against Text-to-Image Generation Models
- Title(参考訳): テキスト・画像生成モデルに対する統一的プロンプト攻撃
- Authors: Duo Peng, Qiuhong Ke, Mark He Huang, Ping Hu, Jun Liu,
- Abstract要約: 攻撃の観点からT2Iモデルのロバスト性を評価するためのフレームワークであるUPAMを提案する。
UPAMはテキストと視覚の両方に対する攻撃を統合する。
また、効率と効率性を改善するために列挙への依存を克服し、勾配ベースの最適化を可能にする。
- 参考スコア(独自算出の注目度): 30.24530622359188
- License:
- Abstract: Text-to-Image (T2I) models have advanced significantly, but their growing popularity raises security concerns due to their potential to generate harmful images. To address these issues, we propose UPAM, a novel framework to evaluate the robustness of T2I models from an attack perspective. Unlike prior methods that focus solely on textual defenses, UPAM unifies the attack on both textual and visual defenses. Additionally, it enables gradient-based optimization, overcoming reliance on enumeration for improved efficiency and effectiveness. To handle cases where T2I models block image outputs due to defenses, we introduce Sphere-Probing Learning (SPL) to enable optimization even without image results. Following SPL, our model bypasses defenses, inducing the generation of harmful content. To ensure semantic alignment with attacker intent, we propose Semantic-Enhancing Learning (SEL) for precise semantic control. UPAM also prioritizes the naturalness of adversarial prompts using In-context Naturalness Enhancement (INE), making them harder for human examiners to detect. Additionally, we address the issue of iterative queries--common in prior methods and easily detectable by API defenders--by introducing Transferable Attack Learning (TAL), allowing effective attacks with minimal queries. Extensive experiments validate UPAM's superiority in effectiveness, efficiency, naturalness, and low query detection rates.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは大幅に進歩しているが、その人気が高まっているため、有害な画像を生成する可能性があるため、セキュリティ上の懸念が高まる。
これらの課題に対処するため,攻撃の観点からT2Iモデルのロバスト性を評価する新しいフレームワークであるUPAMを提案する。
テキスト・ディフェンスのみに焦点を当てた従来の方法とは異なり、UPAMはテキスト・ディフェンスとビジュアル・ディフェンスの両方に対する攻撃を統一する。
さらに、効率と効率性を改善するために列挙への依存を克服し、勾配ベースの最適化を可能にする。
ディフェンスによる画像出力をブロックするT2Iモデルを扱うために,SPL(Sphere-Probing Learning)を導入する。
SPLの後、我々のモデルは防御をバイパスし、有害なコンテンツの生成を誘導する。
本研究では,攻撃意図とのセマンティックアライメントを確保するために,セマンティック・エンハンシング・ラーニング(SEL)を提案する。
UPAMはまた、In-context Naturalness Enhancement (INE) を用いて敵のプロンプトの自然さを優先し、人間の検査者が検出しにくくする。
さらに,従来手法ではよくある反復型クエリの問題に対処し,APIディフェンダが検出しやすく,最小限のクエリで効果的な攻撃を可能にするTransferable Attack Learning(TAL)を導入する。
UPAMの効率性、効率性、自然性、クエリ検出率の低さを実験により検証した。
関連論文リスト
- Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attacks on Breast Ultrasound Images [26.968240633095615]
Prompt2Perturbは,テキスト命令によって駆動される新たな言語誘導攻撃法である。
本手法は, 3つの乳房超音波データセットにおいて, 最先端の攻撃技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-13T06:56:12Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers [21.30197653947112]
テキスト・ツー・イメージ(T2I)モデルでは、不適切な画像や有害な画像を生成する可能性があるため、セキュリティ上の懸念が高まっている。
攻撃の観点からT2Iモデルのロバスト性を調べる新しいフレームワークであるUPAMを提案する。
論文 参考訳(メタデータ) (2024-05-18T16:47:36Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Toward Stronger Textual Attack Detectors [43.543044512474886]
LAROUSSEは、テキストの敵対攻撃を検出する新しいフレームワークである。
STAKEOUTは9つの一般的な攻撃方法、3つのデータセット、2つのトレーニング済みモデルからなる新しいベンチマークである。
論文 参考訳(メタデータ) (2023-10-21T13:01:29Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。