論文の概要: SLayR: Scene Layout Generation with Rectified Flow
- arxiv url: http://arxiv.org/abs/2412.05003v2
- Date: Wed, 12 Mar 2025 10:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 16:44:43.379356
- Title: SLayR: Scene Layout Generation with Rectified Flow
- Title(参考訳): SLayR: 整流によるシーンレイアウト生成
- Authors: Cameron Braunstein, Hevra Petekkaya, Jan Eric Lenssen, Mariya Toneva, Eddy Ilg,
- Abstract要約: 本稿では,テキスト・ツー・イメージ生成のための新しいトランスフォーマーモデルであるSLayRを紹介する。
提案手法は, パラメータの3倍以上小さく, 両手法を同時に実現するための新しい手法であることを示す。
- 参考スコア(独自算出の注目度): 10.449737374910619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SLayR, Scene Layout Generation with Rectified flow, a novel transformer-based model for text-to-layout generation which can then be paired with existing layout-to-image models to produce images. SLayR addresses a domain in which current text-to-image pipelines struggle: generating scene layouts that are of significant variety and plausibility, when the given prompt is ambiguous and does not provide constraints on the scene. SLayR surpasses existing baselines including LLMs in unconstrained generation, and can generate layouts from an open caption set. To accurately evaluate the layout generation, we introduce a new benchmark suite, including numerical metrics and a carefully designed repeatable human-evaluation procedure that assesses the plausibility and variety of generated images. We show that our method sets a new state of the art for achieving both at the same time, while being at least 3x times smaller in the number of parameters.
- Abstract(参考訳): 本稿では,SLayR, Scene Layout Generation with Rectified Flowを紹介した。これはテキストからレイアウト生成のためのトランスフォーマベースの新しいモデルで,既存のレイアウト・ツー・イメージモデルと組み合わせて画像を生成することができる。
SLayRは、与えられたプロンプトが曖昧で、シーンに制約を与えていない場合に、大きな多様性と妥当性を持つシーンレイアウトを生成するという、現在のテキストとイメージのパイプラインが苦労しているドメインに対処する。
SLayRは、制約のない世代でLLMを含む既存のベースラインを超え、オープンキャプションセットからレイアウトを生成することができる。
レイアウト生成を正確に評価するために,数値メトリクスを含む新しいベンチマークスイートと,生成画像の妥当性と多様性を評価する,慎重に設計された人間評価手順を導入する。
提案手法は,パラメータ数を少なくとも3倍小さくしながら,両手法を同時に実現するための新しい最先端技術であることを示す。
関連論文リスト
- CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。
従来の手法は主にUNetベースのモデル(SD1.5やSDXLなど)に重点を置いており、限られた努力でMM-DiT(Multimodal Diffusion Transformer)を探索している。
MM-DiTの利点を継承して、画像とテキストのモダリティを処理するために、別々の集合ネットワーク重みを用いる。
大規模なレイアウトデータセットであるLayoutSAMには、270万のイメージテキストペアと1070万のエンティティが含まれています。
論文 参考訳(メタデータ) (2024-12-05T04:09:47Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation [147.81509219686419]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究である。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。