論文の概要: Discovering Failure Modes of Text-guided Diffusion Models via
Adversarial Search
- arxiv url: http://arxiv.org/abs/2306.00974v5
- Date: Wed, 29 Nov 2023 21:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:36:11.873677
- Title: Discovering Failure Modes of Text-guided Diffusion Models via
Adversarial Search
- Title(参考訳): テキスト誘導拡散モデルの逆探索による故障モードの発見
- Authors: Qihao Liu, Adam Kortylewski, Yutong Bai, Song Bai, and Alan Yuille
- Abstract要約: テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。
本研究は,TDMの障害モードについて,より詳細に研究し,理解することを目的としている。
本稿では,TDM上での最初の逆探索手法であるSAGEを提案する。
- 参考スコア(独自算出の注目度): 52.519433040005126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided diffusion models (TDMs) are widely applied but can fail
unexpectedly. Common failures include: (i) natural-looking text prompts
generating images with the wrong content, or (ii) different random samples of
the latent variables that generate vastly different, and even unrelated,
outputs despite being conditioned on the same text prompt. In this work, we aim
to study and understand the failure modes of TDMs in more detail. To achieve
this, we propose SAGE, the first adversarial search method on TDMs that
systematically explores the discrete prompt space and the high-dimensional
latent space, to automatically discover undesirable behaviors and failure cases
in image generation. We use image classifiers as surrogate loss functions
during searching, and employ human inspections to validate the identified
failures. For the first time, our method enables efficient exploration of both
the discrete and intricate human language space and the challenging latent
space, overcoming the gradient vanishing problem. Then, we demonstrate the
effectiveness of SAGE on five widely used generative models and reveal four
typical failure modes: (1) We find a variety of natural text prompts that
generate images failing to capture the semantics of input texts. We further
discuss the underlying causes and potential solutions based on the results. (2)
We find regions in the latent space that lead to distorted images independent
of the text prompt, suggesting that parts of the latent space are not
well-structured. (3) We also find latent samples that result in natural-looking
images unrelated to the text prompt, implying a possible misalignment between
the latent and prompt spaces. (4) By appending a single adversarial token
embedding to any input prompts, we can generate a variety of specified target
objects. Project page: https://sage-diffusion.github.io/
- Abstract(参考訳): テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。
よくある失敗は
(i)自然に見えるテキストは、間違った内容の画像を生成させるか、または
(ii)同じテキストプロンプトで条件付けされているにもかかわらず、非常に異なる、あるいは無関係な出力を生成する潜在変数の異なるランダムなサンプル。
本研究では,TDMの障害モードについて,より詳細に研究し,理解することを目的とする。
そこで本研究では, 離散的なプロンプト空間と高次元の潜在空間を体系的に探索し, 画像生成における望ましくない動作や障害ケースを自動的に発見する, TDM 上の最初の逆探索手法 SAGE を提案する。
画像分類器は,探索中にサロゲート損失関数として使用し,人間の検査を用いて識別された故障を検証する。
本手法は,人間の言語空間と難解な潜在空間の両方を効率的に探索することを可能にし,勾配消失問題を克服する。
次に、広く使われている5つの生成モデルにおけるSAGEの有効性を実証し、(1)入力テキストのセマンティクスを捉えない画像を生成する様々な自然なテキストプロンプトを見つける。
この結果に基づいて, 根本的な原因と潜在的な解決策についてさらに議論する。
2) テキストプロンプトから独立して歪んだ画像につながる潜伏空間の領域を見つけ, 潜伏空間の一部が十分に構造化されていないことを示唆した。
3) また,テキストプロンプトと無関係な自然画像を生成する潜在サンプルも発見し,潜在空間とプロンプト空間の誤認を示唆した。
(4)任意の入力プロンプトに単一の逆トークンを組み込むことで、さまざまなターゲットオブジェクトを生成することができる。
プロジェクトページ: https://sage-diffusion.github.io/
関連論文リスト
- CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image
Diffusion Models [48.10798436003449]
テキスト間の拡散モデルによって生成された画像は、提供されたテキストプロンプトの意味的な意図を忠実に表現するとは限らない。
私たちの研究は、対照的な文脈でこの課題に取り組むことによって、新しい視点を導入します。
さまざまなシナリオにまたがって広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含む。
論文 参考訳(メタデータ) (2023-12-11T01:42:15Z) - NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。
提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-08T22:04:53Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Stable Diffusion is Unstable [21.13934830556678]
本稿では,テキスト・ツー・イメージ・モデル(ATM)の自動攻撃により,小さな摂動を効率的に生成する手法を提案する。
ATMは短文攻撃で91.1%の成功率、長文攻撃で81.2%の成功率を達成した。
1) 生成速度の変動性, 2) 粗粒度特性の類似性, 3) 単語の多意味性, 4) 単語の位置決めの4つの攻撃パターンが示された。
論文 参考訳(メタデータ) (2023-06-05T04:21:43Z) - Hard Nominal Example-aware Template Mutual Matching for Industrial
Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM)
textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。
提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文 参考訳(メタデータ) (2023-03-16T19:12:52Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。