論文の概要: Evaluating the Robustness of Text-to-image Diffusion Models against
Real-world Attacks
- arxiv url: http://arxiv.org/abs/2306.13103v1
- Date: Fri, 16 Jun 2023 00:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-02 13:55:11.797755
- Title: Evaluating the Robustness of Text-to-image Diffusion Models against
Real-world Attacks
- Title(参考訳): 実世界攻撃に対するテキスト・画像拡散モデルのロバスト性評価
- Authors: Hongcheng Gao, Hao Zhang, Yinpeng Dong, Zhijie Deng
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデル(DM)は,テキスト記述から高品質な画像を生成することを約束している。
1つの根本的な問題は、既存のT2I DMが入力テキストの変動に対して堅牢であるかどうかである。
この研究は、現実世界の攻撃に対するT2I DMの最初の堅牢性評価を提供する。
- 参考スコア(独自算出の注目度): 22.651626059348356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models (DMs) have shown promise in generating
high-quality images from textual descriptions. The real-world applications of
these models require particular attention to their safety and fidelity, but
this has not been sufficiently explored. One fundamental question is whether
existing T2I DMs are robust against variations over input texts. To answer it,
this work provides the first robustness evaluation of T2I DMs against
real-world attacks. Unlike prior studies that focus on malicious attacks
involving apocryphal alterations to the input texts, we consider an attack
space spanned by realistic errors (e.g., typo, glyph, phonetic) that humans can
make, to ensure semantic consistency. Given the inherent randomness of the
generation process, we develop novel distribution-based attack objectives to
mislead T2I DMs. We perform attacks in a black-box manner without any knowledge
of the model. Extensive experiments demonstrate the effectiveness of our method
for attacking popular T2I DMs and simultaneously reveal their non-trivial
robustness issues. Moreover, we provide an in-depth analysis of our method to
show that it is not designed to attack the text encoder in T2I DMs solely.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデル(DM)はテキスト記述から高品質な画像を生成することを約束している。
これらのモデルの現実的な応用には、安全性と忠実さに特に注意が必要であるが、これは十分に調査されていない。
基本的な問題は、既存のT2I DMが入力テキストの変動に対して堅牢であるかどうかである。
そこで本研究では,T2I DMの実際の攻撃に対するロバスト性評価を行った。
入力テキストの黙示録的変更を含む悪意のある攻撃に焦点を当てた以前の研究とは異なり、人間が実現可能な現実的なエラー(例えば、typo、glyph、phonetic)にまたがる攻撃空間を考慮し、意味的一貫性を確保する。
生成過程に固有のランダム性を考えると、T2I DMを誤誘導する新しい分布に基づく攻撃目標を開発する。
我々はモデルを知らずにブラックボックス方式で攻撃を行う。
広汎な実験により,一般的なT2I DMを攻撃するための手法の有効性が実証された。
さらに,本手法の詳細な解析を行い,t2i dmsでのみテキストエンコーダを攻撃できるものではないことを示す。
関連論文リスト
- Trustworthy Text-to-Image Diffusion Models: A Timely and Focused Survey [22.930713650452894]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、画像生成における顕著な進歩に対して広く注目を集めている。
彼らの人気が高まったことで、信頼性の重要な非機能的特性に関する倫理的・社会的懸念が高まった。
論文 参考訳(メタデータ) (2024-09-26T18:46:47Z) - RT-Attack: Jailbreaking Text-to-Image Models via Random Token [24.61198605177661]
ランダム検索を利用した2段階のクエリベースのブラックボックスアタック手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを使用してアプローチを洗練し、脱獄を目的とした詳細な敵対的プロンプトを作成します。
論文 参考訳(メタデータ) (2024-08-25T17:33:40Z) - ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion Models against Stochastic Perturbation [18.103478658038846]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、単純なテキスト記述に基づいて高品質な画像を生成する際、印象的な能力を示した。
多くのディープラーニング(DL)モデルに共通するように、DMは堅牢性に欠ける。
本稿では,T2I DMのロバスト性に関する確率論的概念を導入し,統計的保証で評価するための効率的なフレームワークであるProTIPを確立する。
論文 参考訳(メタデータ) (2024-02-23T16:48:56Z) - Cheating Suffix: Targeted Attack to Text-To-Image Diffusion Models with
Multi-Modal Priors [59.43303903348258]
拡散モデルは様々な画像生成タスクに広く展開されている。
彼らは悪意ある画像や機密画像を生成するために悪用されるという課題に直面している。
本稿では,MMP-Attack という攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models [54.19289900203071]
テキストから画像への生成人工知能の普及は、大衆の関心を集めている。
ユーザを微妙に操作するコンテンツを生成するために,この技術を攻撃できることを実証する。
テキストから画像生成モデル(BAGM)に対するバックドアアタックを提案する。
我々の攻撃は、生成過程の3段階にわたる3つの一般的なテキスト・画像生成モデルをターゲットにした最初の攻撃である。
論文 参考訳(メタデータ) (2023-07-31T08:34:24Z) - A Pilot Study of Query-Free Adversarial Attack against Stable Diffusion [10.985088790765873]
安定拡散に対する対角攻撃発生の問題点について検討する。
T2Iモデルの脆弱性は、テキストエンコーダの堅牢性の欠如に根ざしている。
提案したターゲットアタックは、拡散モデルを正確に操り、ターゲット画像の内容を精査できることを示す。
論文 参考訳(メタデータ) (2023-03-29T01:24:25Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。