Fugu-MT 論文翻訳(概要): Intriguing Properties of Text-guided Diffusion Models

論文の概要: Intriguing Properties of Text-guided Diffusion Models

arxiv url: http://arxiv.org/abs/2306.00974v3
Date: Sun, 18 Jun 2023 17:53:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 01:22:48.810435
Title: Intriguing Properties of Text-guided Diffusion Models
Title（参考訳）: テキスト誘導拡散モデルの興味ある特性
Authors: Qihao Liu, Adam Kortylewski, Yutong Bai, Song Bai, and Alan Yuille
Abstract要約: テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。本研究は,TDMの障害モードについて,より詳細に研究し,理解することを目的としている。
参考スコア（独自算出の注目度）: 39.60029217462994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-guided diffusion models (TDMs) are widely applied but can fail unexpectedly. Common failures include: (i) natural-looking text prompts generating images with the wrong content, or (ii) different random samples of the latent variables that generate vastly different, and even unrelated, outputs despite being conditioned on the same text prompt. In this work, we aim to study and understand the failure modes of TDMs in more detail. To achieve this, we propose SAGE, an adversarial attack on TDMs that uses image classifiers as surrogate loss functions, to search over the discrete prompt space and the high-dimensional latent space of TDMs to automatically discover unexpected behaviors and failure cases in the image generation. We make several technical contributions to ensure that SAGE finds failure cases of the diffusion model, rather than the classifier, and verify this in a human study. Our study reveals four intriguing properties of TDMs that have not been systematically studied before: (1) We find a variety of natural text prompts producing images that fail to capture the semantics of input texts. We categorize these failures into ten distinct types based on the underlying causes. (2) We find samples in the latent space (which are not outliers) that lead to distorted images independent of the text prompt, suggesting that parts of the latent space are not well-structured. (3) We also find latent samples that lead to natural-looking images which are unrelated to the text prompt, implying a potential misalignment between the latent and prompt spaces. (4) By appending a single adversarial token embedding to an input prompt we can generate a variety of specified target objects, while only minimally affecting the CLIP score. This demonstrates the fragility of language representations and raises potential safety concerns.
Abstract（参考訳）: テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。よくある失敗は (i)自然に見えるテキストは、間違った内容の画像を生成させるか、または (ii)同じテキストプロンプトで条件付けされているにもかかわらず、非常に異なる、あるいは無関係な出力を生成する潜在変数の異なるランダムなサンプル。本研究では,TDMの障害モードについて,より詳細に研究し,理解することを目的とする。これを実現するために,画像分類器を代理損失関数として利用するTDMに対する敵対攻撃であるSAGEを提案し,画像生成における予期せぬ動作や故障事例を自動的に発見するために,TDMの離散的なプロンプト空間と高次元潜在空間を探索する。我々は,sageが分類器ではなく拡散モデルの障害事例を見出すために,いくつかの技術的貢献を行い,人間の研究で検証する。本研究は,これまでに体系的に研究されていないtdmの4つの興味をそそる性質を明らかにした。(1)入力テキストのセマンティクスを捉えない画像を生成する,様々な自然テキストプロンプトを見つける。これらの障害を根本原因に基づいた10の異なるタイプに分類する。 2) テキストプロンプトから独立して歪んだ画像につながる潜伏空間(外れ値ではない)のサンプルを見つけ, 潜伏空間の一部が十分に構造化されていないことを示唆した。 3)テキストプロンプトと無関係な自然画像に繋がる潜在サンプルを見つけ、潜在空間とプロンプト空間の間の潜在的な不一致を示唆する。 (4) 入力プロンプトに1つの逆数トークンを埋め込むことで、CLIPスコアに最小限の影響を与えながら、さまざまな特定のターゲットオブジェクトを生成することができる。これは言語表現の脆弱さを示し、潜在的な安全性の懸念を提起する。

関連論文リスト

Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection [17.590853105242864]
視覚言語モデル(例えばCLIP)はゼロショット異常検出(ZSAD)において顕著な性能を示した。 Bayes-PFL は画像固有の分布と画像に依存しない分布の両方を学習するために設計されており、テキストプロンプト空間を正規化し、未知のカテゴリにおけるモデルの一般化を改善するために共同で使用される。 15の産業用および医療用データセットに対する実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2025-03-13T06:05:35Z)
Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models [0.5461938536945723]
関係、否定、離散数という3種類の論理作用素について検討する。人的合意のスコアが50%を超えることは確実ではない。本稿では,マルチモーダル学習システムに固有の制約について論じる。
論文参考訳（メタデータ） (2024-11-26T03:06:52Z)
Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文参考訳（メタデータ） (2024-10-25T21:44:51Z)
Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing [4.948910649137149]
Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々と共同でどのように貢献するかを検討する。ゼロショットきめ細かい画像編集のための簡易かつ効果的な抽出マニピュレーション・サンプル・フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-23T19:00:52Z)
On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文参考訳（メタデータ） (2024-02-02T12:39:49Z)
NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models [6.254873489691852]
本稿では,テキストのプロンプトに依存することなく,テキスト間拡散モデルにおける潜在意味を検出する教師なし手法を提案する。提案手法は,拡散法とGAN法を併用した遅延空間編集法において,既存の手法よりも優れている。
論文参考訳（メタデータ） (2023-12-08T22:04:53Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文参考訳（メタデータ） (2023-03-16T19:12:52Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文参考訳（メタデータ） (2023-01-31T18:10:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。