論文の概要: LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.13655v1
- Date: Tue, 23 May 2023 03:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 19:12:50.825966
- Title: LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models
- Title(参考訳): LLM-grounded Diffusion:大規模言語モデルを用いたテキスト間拡散モデルのプロンプト理解の促進
- Authors: Long Lian, Boyi Li, Adam Yala, Trevor Darrell
- Abstract要約: 既訓練の大規模言語モデルを用いて,推論能力の向上を図った拡散モデルを提案する。
本手法は自然にダイアログベースのシーン仕様を許容し,基礎となる拡散モデルで十分にサポートされていない言語でプロンプトを処理できる。
- 参考スコア(独自算出の注目度): 79.0347968234583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text-to-image generation with diffusion models have
yielded remarkable results synthesizing highly realistic and diverse images.
However, these models still encounter difficulties when generating images from
prompts that demand spatial or common sense reasoning. We propose to equip
diffusion models with enhanced reasoning capabilities by using off-the-shelf
pretrained large language models (LLMs) in a novel two-stage generation
process. First, we adapt an LLM to be a text-guided layout generator through
in-context learning. When provided with an image prompt, an LLM outputs a scene
layout in the form of bounding boxes along with corresponding individual
descriptions. Second, we steer a diffusion model with a novel controller to
generate images conditioned on the layout. Both stages utilize frozen
pretrained models without any LLM or diffusion model parameter optimization. We
validate the superiority of our design by demonstrating its ability to
outperform the base diffusion model in accurately generating images according
to prompts that necessitate both language and spatial reasoning. Additionally,
our method naturally allows dialog-based scene specification and is able to
handle prompts in a language that is not well-supported by the underlying
diffusion model.
- Abstract(参考訳): 近年の拡散モデルによるテキスト対画像生成の進歩は、高度にリアルで多様な画像を合成する驚くべき結果をもたらした。
しかし、これらのモデルは空間的あるいは常識的推論を必要とするプロンプトから画像を生成する際にも困難に直面する。
本稿では,新たな2段階生成プロセスにおいて,市販の事前学習型大言語モデル(LLM)を用いて,推論能力を向上した拡散モデルを提案する。
まず、llmをコンテキスト内学習を通じてテキスト誘導型レイアウト生成器に適応させる。
画像プロンプトを備えると、LCMは、対応する個々の記述とともに境界ボックスの形式でシーンレイアウトを出力する。
第2に,新しいコントローラを用いて拡散モデルを操り,レイアウトに条件付き画像を生成する。
どちらの段階も、LLMや拡散モデルパラメータ最適化を使わずに、凍結事前訓練されたモデルを利用する。
我々は, 言語的・空間的推論を必要とするプロンプトに従って, 画像を正確に生成する上で, ベース拡散モデルに勝る能力を示すことにより, 設計の優位性を検証する。
さらに,本手法は自然にダイアログベースのシーン仕様を許容し,基礎となる拡散モデルに十分にサポートされていない言語でプロンプトを処理できる。
関連論文リスト
- Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Reason out Your Layout: Evoking the Layout Master from Large Language
Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。
実験により,画像の画質とレイアウト精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-28T14:51:13Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。