Fugu-MT 論文翻訳(概要): Discovering Failure Modes of Text-guided Diffusion Models via Adversarial Search

論文の概要: Discovering Failure Modes of Text-guided Diffusion Models via Adversarial Search

arxiv url: http://arxiv.org/abs/2306.00974v5
Date: Wed, 29 Nov 2023 21:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 20:36:11.873677
Title: Discovering Failure Modes of Text-guided Diffusion Models via Adversarial Search
Title（参考訳）: テキスト誘導拡散モデルの逆探索による故障モードの発見
Authors: Qihao Liu, Adam Kortylewski, Yutong Bai, Song Bai, and Alan Yuille
Abstract要約: テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。本研究は,TDMの障害モードについて,より詳細に研究し,理解することを目的としている。本稿では,TDM上での最初の逆探索手法であるSAGEを提案する。
参考スコア（独自算出の注目度）: 52.519433040005126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-guided diffusion models (TDMs) are widely applied but can fail unexpectedly. Common failures include: (i) natural-looking text prompts generating images with the wrong content, or (ii) different random samples of the latent variables that generate vastly different, and even unrelated, outputs despite being conditioned on the same text prompt. In this work, we aim to study and understand the failure modes of TDMs in more detail. To achieve this, we propose SAGE, the first adversarial search method on TDMs that systematically explores the discrete prompt space and the high-dimensional latent space, to automatically discover undesirable behaviors and failure cases in image generation. We use image classifiers as surrogate loss functions during searching, and employ human inspections to validate the identified failures. For the first time, our method enables efficient exploration of both the discrete and intricate human language space and the challenging latent space, overcoming the gradient vanishing problem. Then, we demonstrate the effectiveness of SAGE on five widely used generative models and reveal four typical failure modes: (1) We find a variety of natural text prompts that generate images failing to capture the semantics of input texts. We further discuss the underlying causes and potential solutions based on the results. (2) We find regions in the latent space that lead to distorted images independent of the text prompt, suggesting that parts of the latent space are not well-structured. (3) We also find latent samples that result in natural-looking images unrelated to the text prompt, implying a possible misalignment between the latent and prompt spaces. (4) By appending a single adversarial token embedding to any input prompts, we can generate a variety of specified target objects. Project page: https://sage-diffusion.github.io/
Abstract（参考訳）: テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。よくある失敗は (i)自然に見えるテキストは、間違った内容の画像を生成させるか、または (ii)同じテキストプロンプトで条件付けされているにもかかわらず、非常に異なる、あるいは無関係な出力を生成する潜在変数の異なるランダムなサンプル。本研究では,TDMの障害モードについて,より詳細に研究し,理解することを目的とする。そこで本研究では, 離散的なプロンプト空間と高次元の潜在空間を体系的に探索し, 画像生成における望ましくない動作や障害ケースを自動的に発見する, TDM 上の最初の逆探索手法 SAGE を提案する。画像分類器は,探索中にサロゲート損失関数として使用し,人間の検査を用いて識別された故障を検証する。本手法は,人間の言語空間と難解な潜在空間の両方を効率的に探索することを可能にし,勾配消失問題を克服する。次に、広く使われている5つの生成モデルにおけるSAGEの有効性を実証し、(1)入力テキストのセマンティクスを捉えない画像を生成する様々な自然なテキストプロンプトを見つける。この結果に基づいて, 根本的な原因と潜在的な解決策についてさらに議論する。 2) テキストプロンプトから独立して歪んだ画像につながる潜伏空間の領域を見つけ, 潜伏空間の一部が十分に構造化されていないことを示唆した。 3) また,テキストプロンプトと無関係な自然画像を生成する潜在サンプルも発見し,潜在空間とプロンプト空間の誤認を示唆した。 (4)任意の入力プロンプトに単一の逆トークンを組み込むことで、さまざまなターゲットオブジェクトを生成することができる。プロジェクトページ: https://sage-diffusion.github.io/

関連論文リスト

Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文参考訳（メタデータ） (2025-11-01T06:51:14Z)
Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection [17.590853105242864]
視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。 Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリにおけるモデルの一般化を改善するために共同で使用される。 15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2025-03-13T06:05:35Z)
Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models [0.5461938536945723]
関係、否定、離散数という3種類の論理作用素について検討する。人的合意のスコアが50%を超えることは確実ではない。本稿では,マルチモーダル学習システムに固有の制約について論じる。
論文参考訳（メタデータ） (2024-11-26T03:06:52Z)
Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文参考訳（メタデータ） (2024-10-25T21:44:51Z)
Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing [4.948910649137149]
Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々と共同でどのように貢献するかを検討する。ゼロショットきめ細かい画像編集のための簡易かつ効果的な抽出マニピュレーション・サンプル・フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-23T19:00:52Z)
On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文参考訳（メタデータ） (2024-02-02T12:39:49Z)
NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文参考訳（メタデータ） (2023-12-08T22:04:53Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文参考訳（メタデータ） (2023-03-16T19:12:52Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文参考訳（メタデータ） (2023-01-31T18:10:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。