Fugu-MT 論文翻訳(概要): UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers

論文の概要: UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers

arxiv url: http://arxiv.org/abs/2405.11336v1
Date: Sat, 18 May 2024 16:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 18:18:48.608589
Title: UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers
Title（参考訳）: UPAM:テキスト・ツー・イメージ生成モデルにおけるテキスト・フィルタとビジュアル・チェッカーの両方に対する統一されたプロンプト・アタック
Authors: Duo Peng, Qiuhong Ke, Jun Liu,
Abstract要約: テキスト・ツー・イメージ(T2I)モデルでは、不適切な画像や有害な画像を生成する可能性があるため、セキュリティ上の懸念が高まっている。攻撃の観点からT2Iモデルのロバスト性を調べる新しいフレームワークであるUPAMを提案する。
参考スコア（独自算出の注目度）: 21.30197653947112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-Image (T2I) models have raised security concerns due to their potential to generate inappropriate or harmful images. In this paper, we propose UPAM, a novel framework that investigates the robustness of T2I models from the attack perspective. Unlike most existing attack methods that focus on deceiving textual defenses, UPAM aims to deceive both textual and visual defenses in T2I models. UPAM enables gradient-based optimization, offering greater effectiveness and efficiency than previous methods. Given that T2I models might not return results due to defense mechanisms, we introduce a Sphere-Probing Learning (SPL) scheme to support gradient optimization even when no results are returned. Additionally, we devise a Semantic-Enhancing Learning (SEL) scheme to finetune UPAM for generating target-aligned images. Our framework also ensures attack stealthiness. Extensive experiments demonstrate UPAM's effectiveness and efficiency.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)モデルでは、不適切な画像や有害な画像を生成する可能性があるため、セキュリティ上の懸念が高まっている。本稿では,攻撃の観点からT2Iモデルのロバスト性を調べる新しいフレームワークであるUPAMを提案する。既存の攻撃方法とは異なり、UPAMはT2Iモデルにおけるテキストと視覚の両方の防御を欺くことを目的としている。 UPAMは勾配に基づく最適化を可能にし、従来の方法よりも高い効率と効率を提供する。 T2Iモデルが防御機構によって結果を返すことができないことを考慮し、結果が返されない場合でも勾配最適化をサポートするSPL(Sphere-Probing Learning)方式を導入する。さらに、セマンティック・エンハンシング・ラーニング(SEL)方式を考案し、UPAMを微調整し、目標に整列した画像を生成する。私たちのフレームワークは、攻撃のステルス性も保証します。大規模な実験はUPAMの有効性と効率を実証している。

関連論文リスト

MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。 OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文参考訳（メタデータ） (2025-06-03T01:37:09Z)
T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文参考訳（メタデータ） (2025-05-10T16:04:52Z)
EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution [11.331361804059625]
Enhancing Anything Model (EAM)はBlind Super-Resolution法である。画像復元を効果的に誘導する新しいブロックである$Psi$-DiTを導入する。 EAMは、複数のデータセットにまたがる最先端の結果を達成し、定量的メトリクスと視覚的品質の両方において、既存の手法よりも優れています。
論文参考訳（メタデータ） (2025-05-08T13:03:07Z)
Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks [17.75247947379804]
MLLM訓練期間中のジェイルブレイク攻撃に対する防御を目的とした,最初の対人訓練パラダイムを提示する。エンド・ツー・エンドのATフレームワークであるProEAT(Projection Layer Against Adversarial Training)を紹介する。 ProEATは最先端の防御性能を達成し、テキストと画像のモダリティの平均マージン+34%で既存のベースラインを上回っている。
論文参考訳（メタデータ） (2025-03-05T14:13:35Z)
Unified Prompt Attack Against Text-to-Image Generation Models [30.24530622359188]
攻撃の観点からT2Iモデルのロバスト性を評価するためのフレームワークであるUPAMを提案する。 UPAMはテキストと視覚の両方に対する攻撃を統合する。また、効率と効率性を改善するために列挙への依存を克服し、勾配ベースの最適化を可能にする。
論文参考訳（メタデータ） (2025-02-23T03:36:18Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文参考訳（メタデータ） (2024-10-28T19:15:06Z)
RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文参考訳（メタデータ） (2024-08-25T17:33:40Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
GuardT2I: Defending Text-to-Image Models from Adversarial Prompts [16.317849859000074]
GuardT2Iは、T2Iモデルの敵のプロンプトに対する堅牢性を高めるための生成的アプローチを採用する、新しいモデレーションフレームワークである。実験の結果、GardetT2IはOpenAI-ModerationやMicrosoft Azure Moderatorといった主要な商用ソリューションよりも優れています。
論文参考訳（メタデータ） (2024-03-03T09:04:34Z)
VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。 5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文参考訳（メタデータ） (2024-02-16T21:17:42Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
Learning to Generate Image Source-Agnostic Universal Adversarial Perturbations [65.66102345372758]
普遍対向摂動(UAP)は複数の画像を同時に攻撃することができる。既存のUAPジェネレータは、画像が異なる画像ソースから描画される際には未開発である。数発の学習をカスタマイズした例として,UAP生成の新たな視点を考察する。
論文参考訳（メタデータ） (2020-09-29T01:23:20Z)
Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文参考訳（メタデータ） (2020-09-05T06:00:28Z)
Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文参考訳（メタデータ） (2020-02-20T08:42:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。