論文の概要: An indicator for effectiveness of text-to-image guardrails utilizing the Single-Turn Crescendo Attack (STCA)
- arxiv url: http://arxiv.org/abs/2411.18699v1
- Date: Wed, 27 Nov 2024 19:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:34.166053
- Title: An indicator for effectiveness of text-to-image guardrails utilizing the Single-Turn Crescendo Attack (STCA)
- Title(参考訳): シングルTurn Crescendo Attack (STCA) を用いたテキスト・ツー・イメージガードレールの有効性の指標
- Authors: Ted Kwartler, Nataliia Bagan, Ivan Banny, Alan Aqrawi, Arian Abbasi,
- Abstract要約: Single-Turn Crescendo Attack (STCA)は、テキストからテキストへのAIモデルの倫理的保護を回避するために設計された革新的な方法である。
本研究は,テキスト・ツー・イメージ・モデルにおけるガードレールの堅牢性を評価するための枠組みを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Single-Turn Crescendo Attack (STCA), first introduced in Aqrawi and Abbasi [2024], is an innovative method designed to bypass the ethical safeguards of text-to-text AI models, compelling them to generate harmful content. This technique leverages a strategic escalation of context within a single prompt, combined with trust-building mechanisms, to subtly deceive the model into producing unintended outputs. Extending the application of STCA to text-to-image models, we demonstrate its efficacy by compromising the guardrails of a widely-used model, DALL-E 3, achieving outputs comparable to outputs from the uncensored model Flux Schnell, which served as a baseline control. This study provides a framework for researchers to rigorously evaluate the robustness of guardrails in text-to-image models and benchmark their resilience against adversarial attacks.
- Abstract(参考訳): AqrawiとAbbasi [2024]で最初に導入されたSTCA(Single-Turn Crescendo Attack)は、テキストからテキストまでのAIモデルの倫理的保護を回避し、有害なコンテンツを生成できるように設計された革新的な方法である。
この手法は、単一のプロンプト内でのコンテキストの戦略的エスカレーションと信頼構築機構を組み合わせて、モデルを微妙に騙して意図しない出力を生成する。
テキスト・ツー・イメージ・モデルへのSTCAの適用を拡大し、広範に使用されているモデルであるDALL-E 3のガードレールを妥協し、ベースライン制御として機能する非検閲モデルであるFlux Schnellの出力に匹敵する出力を達成することにより、その効果を実証する。
本研究は,テキスト・ツー・イメージ・モデルにおけるガードレールの堅牢性を厳格に評価し,敵攻撃に対する弾力性を評価するための枠組みを提供する。
関連論文リスト
- CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文 参考訳(メタデータ) (2024-10-29T07:15:09Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users [18.3621509910395]
そこで本研究では,テキスト・ツー・イメージ・モデルの安全性を評価するために,新しい自動レッド・チーム・フレームワークARTを提案する。
包括的実験により、人気のあるオープンソーステキスト・ツー・イメージモデルの毒性を明らかにする。
また、テキスト・ツー・イメージ・モデルに関連する安全性リスクを研究するために、大規模な3つの赤チームデータセットも導入する。
論文 参考訳(メタデータ) (2024-05-24T07:44:27Z) - Groot: Adversarial Testing for Generative Text-to-Image Models with
Tree-based Semantic Transformation [16.79414725225863]
NSFW(Not-Safe-For-Work)コンテンツを生成するために,このようなモデルを誘導できるかどうかを調査するために,敵の試験技術が開発されている。
Grootは、木に基づくセマンティックトランスフォーメーションを利用した最初の自動化フレームワークで、テキスト・ツー・イメージモデルの対角テストを行う。
我々はGrootの有効性を総合的に検証し、現在最先端のアプローチの性能を上回るだけでなく、主要なテキスト・画像モデルにおいて顕著な成功率(93.66%)を達成している。
論文 参考訳(メタデータ) (2024-02-19T12:31:56Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。