論文の概要: LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.13655v2
- Date: Tue, 10 Oct 2023 17:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:24:14.863408
- Title: LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models
- Title(参考訳): LLM-grounded Diffusion:大規模言語モデルを用いたテキスト間拡散モデルのプロンプト理解の促進
- Authors: Long Lian, Boyi Li, Adam Yala, Trevor Darrell
- Abstract要約: 本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 62.75006608940132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text-to-image diffusion models have yielded impressive
results in generating realistic and diverse images. However, these models still
struggle with complex prompts, such as those that involve numeracy and spatial
reasoning. This work proposes to enhance prompt understanding capabilities in
diffusion models. Our method leverages a pretrained large language model (LLM)
for grounded generation in a novel two-stage process. In the first stage, the
LLM generates a scene layout that comprises captioned bounding boxes from a
given prompt describing the desired image. In the second stage, a novel
controller guides an off-the-shelf diffusion model for layout-grounded image
generation. Both stages utilize existing pretrained models without additional
model parameter optimization. Our method significantly outperforms the base
diffusion model and several strong baselines in accurately generating images
according to prompts that require various capabilities, doubling the generation
accuracy across four tasks on average. Furthermore, our method enables
instruction-based multi-round scene specification and can handle prompts in
languages not supported by the underlying diffusion model. We anticipate that
our method will unleash users' creativity by accurately following more complex
prompts.
- Abstract(参考訳): 最近のテキストから画像への拡散モデルの進歩は、リアルで多様な画像を生成する素晴らしい結果をもたらした。
しかし、これらのモデルはまだ、数量化や空間的推論を含むような複雑なプロンプトに苦しむ。
本研究は拡散モデルにおける迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデル(LLM)を基底生成に活用する。
第1段階で、LLMは、所望の画像を記述する所定のプロンプトからキャプション付きバウンディングボックスを含むシーンレイアウトを生成する。
第2段階では、新しいコントローラがレイアウト基底画像生成のためのオフザシェルフ拡散モデルを導出する。
どちらの段階も、追加のモデルパラメータ最適化なしで既存の事前訓練モデルを利用する。
提案手法は, 4つのタスクにまたがる生成精度を平均2倍にし, 様々な機能を必要とするプロンプトに従って, 画像の正確な生成において, ベース拡散モデルと強いベースラインを著しく上回っている。
さらに,命令ベースのマルチラウンドシーン仕様を実現し,基礎となる拡散モデルではサポートされていない言語でプロンプトを処理できる。
我々は,より複雑なプロンプトを正確に追従することで,ユーザの創造性を解き放つことを期待する。
関連論文リスト
- Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Reason out Your Layout: Evoking the Layout Master from Large Language
Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。
実験により,画像の画質とレイアウト精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-28T14:51:13Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。