論文の概要: Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2505.04718v1
- Date: Wed, 07 May 2025 18:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.638101
- Title: Lay-Your-Scene: Natural Scene Layout Generation with Diffusion Transformers
- Title(参考訳): 拡散変圧器を用いた自然シーンレイアウト生成
- Authors: Divyansh Srivastava, Xiang Zhang, He Wen, Chenru Wen, Zhuowen Tu,
- Abstract要約: 自然シーンのための新しいテキスト・ツー・ジェネレーションパイプラインであるLay-Your-Scene(LayouSyn)について紹介する。
本稿では,テキストプロンプトからシーン要素を得るための軽量なオープンソース言語モデルと,条件付きレイアウト生成のためのオープン語彙で訓練されたアスペクト対応拡散トランスフォーマアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 24.35806337907587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Lay-Your-Scene (shorthand LayouSyn), a novel text-to-layout generation pipeline for natural scenes. Prior scene layout generation methods are either closed-vocabulary or use proprietary large language models for open-vocabulary generation, limiting their modeling capabilities and broader applicability in controllable image generation. In this work, we propose to use lightweight open-source language models to obtain scene elements from text prompts and a novel aspect-aware diffusion Transformer architecture trained in an open-vocabulary manner for conditional layout generation. Extensive experiments demonstrate that LayouSyn outperforms existing methods and achieves state-of-the-art performance on challenging spatial and numerical reasoning benchmarks. Additionally, we present two applications of LayouSyn. First, we show that coarse initialization from large language models can be seamlessly combined with our method to achieve better results. Second, we present a pipeline for adding objects to images, demonstrating the potential of LayouSyn in image editing applications.
- Abstract(参考訳): 自然シーンのためのテキスト・ツー・レイアウト生成パイプラインであるLay-Your-Scene(LayouSyn)について紹介する。
以前のシーンレイアウト生成手法は、クローズドボキャブラリか、オープンボキャブラリ生成のためのプロプライエタリな大規模言語モデルを使用するかのいずれかであり、モデリング能力と制御可能な画像生成の幅広い適用性を制限する。
本研究では,テキストプロンプトからシーン要素を得るための軽量なオープンソース言語モデルと,条件付きレイアウト生成のためのオープン語彙で訓練されたアスペクト対応拡散変換器アーキテクチャを提案する。
大規模な実験により、LayouSynは既存の手法より優れており、挑戦的な空間的および数値的推論のベンチマーク上で最先端のパフォーマンスを達成している。
さらに、LayouSynの2つの応用について述べる。
まず,大規模言語モデルからの粗い初期化をシームレスに組み合わせることで,より良い結果が得られることを示す。
次に、画像にオブジェクトを追加するパイプラインを示し、画像編集アプリケーションにおけるLayouSynの可能性を示す。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。