論文の概要: ToLo: A Two-Stage, Training-Free Layout-To-Image Generation Framework For High-Overlap Layouts
- arxiv url: http://arxiv.org/abs/2503.01667v1
- Date: Mon, 03 Mar 2025 15:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:14.348507
- Title: ToLo: A Two-Stage, Training-Free Layout-To-Image Generation Framework For High-Overlap Layouts
- Title(参考訳): ToLo:ハイオーバーラップレイアウトのための2段階のトレーニング不要レイアウト・ツー・イメージ生成フレームワーク
- Authors: Linhao Huang, Jing Yu,
- Abstract要約: ToLoは、ハイオーバーラップレイアウトのための2段階のトレーニング不要なレイアウト・ツー・イメージ生成フレームワークである。
ToLoは,高オーバラップレイアウトを扱う場合,既存の手法の性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 2.799190378263432
- License:
- Abstract: Recent training-free layout-to-image diffusion models have demonstrated remarkable performance in generating high-quality images with controllable layouts. These models follow a one-stage framework: Encouraging the model to focus the attention map of each concept on its corresponding region by defining attention map-based losses. However, these models still struggle to accurately follow layouts with significant overlap, often leading to issues like attribute leakage and missing entities. In this paper, we propose ToLo, a two-stage, training-free layout-to-image generation framework for high-overlap layouts. Our framework consists of two stages: the aggregation stage and the separation stage, each with its own loss function based on the attention map. To provide a more effective evaluation, we partition the HRS dataset based on the Intersection over Union (IoU) of the input layouts, creating a new dataset for layout-to-image generation with varying levels of overlap. Through extensive experiments on this dataset, we demonstrate that ToLo significantly enhances the performance of existing methods when dealing with high-overlap layouts. Our code and dataset are available here: https://github.com/misaka12435/ToLo.
- Abstract(参考訳): 最近のトレーニングフリーなレイアウト・ツー・イメージ拡散モデルでは、レイアウトを制御可能な高品質な画像を生成する際、顕著な性能を示している。
これらのモデルは、以下の1段階のフレームワークに従う。 注意マップベースの損失を定義することにより、各概念の注意マップを対応する領域に集中させる。
しかし、これらのモデルはレイアウトを正確に追従するのに依然として苦労しており、しばしば属性のリークやエンティティの欠如といった問題を引き起こします。
本稿では,高オーバラップレイアウトのための2段階のトレーニング不要なレイアウト・ツー・イメージ生成フレームワークToLoを提案する。
本フレームワークは,アグリゲーションステージと分離ステージの2段階から構成される。
より効果的な評価のために,入力レイアウトのIoU(Intersection over Union)に基づいてHRSデータセットを分割し,重なり合いの異なるレイアウト・画像生成のための新しいデータセットを作成する。
このデータセットに関する広範な実験を通じて、ToLoは高オーバラップレイアウトを扱う場合、既存のメソッドのパフォーマンスを大幅に向上することを示した。
私たちのコードとデータセットは以下の通りです。
関連論文リスト
- Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。
本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation [147.81509219686419]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究である。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-21T04:41:02Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - Scene Graph to Image Generation with Contextualized Object Layout
Refinement [92.85331019618332]
シーングラフから画像を生成する新しい手法を提案する。
提案手法では,レイアウトのカバレッジを約20ポイント向上し,オブジェクトの重複量を無視できる量に削減する。
論文 参考訳(メタデータ) (2020-09-23T06:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。