論文の概要: Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2408.00230v1
- Date: Thu, 1 Aug 2024 01:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:55:12.814781
- Title: Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models
- Title(参考訳): 翻訳における損失:テキストと画像の拡散モデルにおける潜在概念の相違
- Authors: Juntu Zhao, Junyu Deng, Yixin Ye, Chongxuan Li, Zhijie Deng, Dequan Wang,
- Abstract要約: テキスト・ツー・イメージの拡散モデルは、しばしばテキストと画像のミスアライメント問題に遭遇する。
我々は拡散モデルの潜在意味論をテキストプロンプトに整合させる自動パイプラインを開発する。
- 参考スコア(独自算出の注目度): 25.94545766536942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in text-to-image diffusion models have broadened extensive downstream practical applications, but such models often encounter misalignment issues between text and image. Taking the generation of a combination of two disentangled concepts as an example, say given the prompt "a tea cup of iced coke", existing models usually generate a glass cup of iced coke because the iced coke usually co-occurs with the glass cup instead of the tea one during model training. The root of such misalignment is attributed to the confusion in the latent semantic space of text-to-image diffusion models, and hence we refer to the "a tea cup of iced coke" phenomenon as Latent Concept Misalignment (LC-Mis). We leverage large language models (LLMs) to thoroughly investigate the scope of LC-Mis, and develop an automated pipeline for aligning the latent semantics of diffusion models to text prompts. Empirical assessments confirm the effectiveness of our approach, substantially reducing LC-Mis errors and enhancing the robustness and versatility of text-to-image diffusion models. Our code and dataset have been available online for reference.
- Abstract(参考訳): テキストと画像の拡散モデルの進歩は、下流の実践的応用を広範囲に広げてきたが、そのようなモデルはテキストと画像のミスアライメント問題にしばしば遭遇した。
例えば「アイスコークスのティーカップ」というプロンプトが与えられた場合、既存のモデルでは、アイスコークスは通常、ティーカップの代わりにグラスカップと共起するため、アイスコークスのグラスカップが生成される。
このようなミスアライメントの根源は,テキスト・ツー・イメージ拡散モデルの潜在意味空間の混乱によるもので,それ故に「氷コークスのティーカップ」現象をラテント・コンセプト・ミスライメント(LC-Mis)と呼ぶ。
我々は大規模言語モデル(LLM)を活用してLC-Misの範囲を徹底的に調査し、拡散モデルの潜在意味をテキストプロンプトに整合させる自動パイプラインを開発する。
実験により,本手法の有効性を確認し,LC-Mis誤差を大幅に低減し,テキスト・画像拡散モデルの堅牢性と汎用性を向上させる。
私たちのコードとデータセットは、参照のためにオンラインで公開されています。
関連論文リスト
- LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Semantic Guidance Tuning for Text-To-Image Diffusion Models [3.3881449308956726]
本研究では,推論中の拡散モデルの誘導方向を変調する学習自由アプローチを提案する。
まず,素早い意味論を概念の集合に分解し,各概念に関するガイダンスの軌跡をモニタリングする。
そこで本研究では,モデルが発散する概念に対して,誘導方向を制御するための手法を考案した。
論文 参考訳(メタデータ) (2023-12-26T09:02:17Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Understanding and Mitigating Copying in Diffusion Models [53.03978584040557]
安定拡散のような拡散モデルによって生成される画像は、ますます広まっている。
最近の研究や訴訟でも、これらのモデルがトレーニングデータを複製する傾向にあることが示されている。
論文 参考訳(メタデータ) (2023-05-31T17:58:02Z) - Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。
ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。
説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。
DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:55:41Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。