論文の概要: Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation
- arxiv url: http://arxiv.org/abs/2304.06671v3
- Date: Sun, 21 Jul 2024 04:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 06:06:15.081722
- Title: Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation
- Title(参考訳): レイアウトガイド画像生成のための診断ベンチマークと反復塗布
- Authors: Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal,
- Abstract要約: 本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究である。
- 参考スコア(独自算出の注目度): 147.81509219686419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial control is a core capability in controllable image generation. Advancements in layout-guided image generation have shown promising results on in-distribution (ID) datasets with similar spatial configurations. However, it is unclear how these models perform when facing out-of-distribution (OOD) samples with arbitrary, unseen layouts. In this paper, we propose LayoutBench, a diagnostic benchmark for layout-guided image generation that examines four categories of spatial control skills: number, position, size, and shape. We benchmark two recent representative layout-guided image generation methods and observe that the good ID layout control may not generalize well to arbitrary layouts in the wild (e.g., objects at the boundary). Next, we propose IterInpaint, a new baseline that generates foreground and background regions step-by-step via inpainting, demonstrating stronger generalizability than existing models on OOD layouts in LayoutBench. We perform quantitative and qualitative evaluation and fine-grained analysis on the four LayoutBench skills to pinpoint the weaknesses of existing models. We show comprehensive ablation studies on IterInpaint, including training task ratio, crop&paste vs. repaint, and generation order. Lastly, we evaluate the zero-shot performance of different pretrained layout-guided image generation models on LayoutBench-COCO, our new benchmark for OOD layouts with real objects, where our IterInpaint consistently outperforms SOTA baselines in all four splits. Project website: https://layoutbench.github.io
- Abstract(参考訳): 空間制御は、制御可能な画像生成のコア機能である。
レイアウト誘導画像生成の進歩は、類似した空間構成を持つ非分布(ID)データセットに対して有望な結果を示している。
しかし、これらのモデルが任意のレイアウトでOOD(out-of-distriion)サンプルに直面する場合、どのように機能するかは不明である。
本稿では,レイアウト誘導画像生成のための診断ベンチマークであるLayoutBenchを提案する。
我々は最近の2つの代表的なレイアウト誘導画像生成手法をベンチマークし、良質なIDレイアウト制御が野生の任意のレイアウト(例えば境界のオブジェクト)にうまく適用できないことを観察する。
次に,IterInpaintを提案する。IterInpaintは,LayoutBenchの既存のOODレイアウトのモデルよりも強力な一般化性を示す,前景および背景領域を段階的に生成する新しいベースラインである。
既存のモデルの弱点を特定するために,4つのLayoutBenchスキルの定量的,定性的な評価ときめ細かい分析を行う。
本研究はIterInpaintに関する総合的アブレーション研究である。
最後に、IterInpaintは4つの分割でSOTAベースラインを一貫して上回っている実オブジェクトを用いたOODレイアウトのベンチマークであるLayoutBench-COCO上で、事前訓練されたレイアウト誘導画像生成モデルのゼロショット性能を評価した。
プロジェクトサイト: https://layoutbench.github.io
関連論文リスト
- SLayR: Scene Layout Generation with Rectified Flow [10.449737374910619]
SLayRはトークン空間上のレイアウト生成のための新しい変圧器ベースの整流モデルを提案する。
生成した画像の確立されたメトリクスが、その基盤となるシーンレイアウトを評価するために決定的でないことを示す。
従来より多種多様あるいは可算性に優れていた研究とは対照的に,本手法は両軸の両面において同時に良好に機能することを示す。
論文 参考訳(メタデータ) (2024-12-06T12:58:58Z) - CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [75.01950130227996]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。
従来の手法は主にUNetベースのモデル(SD1.5やSDXLなど)に重点を置いており、限られた努力でMM-DiT(Multimodal Diffusion Transformer)を探索している。
MM-DiTの利点を継承して、画像とテキストのモダリティを処理するために、別々の集合ネットワーク重みを用いる。
大規模なレイアウトデータセットであるLayoutSAMには、270万のイメージテキストペアと1070万のエンティティが含まれています。
論文 参考訳(メタデータ) (2024-12-05T04:09:47Z) - Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation [30.101562738257588]
コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。
単純な検索拡張により生成品質が大幅に向上することを示す。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
論文 参考訳(メタデータ) (2023-11-22T18:59:53Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。