論文の概要: LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models
- arxiv url: http://arxiv.org/abs/2303.11589v2
- Date: Tue, 15 Aug 2023 06:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 16:57:32.041693
- Title: LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models
- Title(参考訳): LayoutDiffusion:離散拡散確率モデルによるグラフィックレイアウト生成の改善
- Authors: Junyi Zhang, Jiaqi Guo, Shizhao Sun, Jian-Guang Lou, Dongmei Zhang
- Abstract要約: レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 50.73105631853759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating graphic layouts is a fundamental step in graphic designs. In this
work, we present a novel generative model named LayoutDiffusion for automatic
layout generation. As layout is typically represented as a sequence of discrete
tokens, LayoutDiffusion models layout generation as a discrete denoising
diffusion process. It learns to reverse a mild forward process, in which
layouts become increasingly chaotic with the growth of forward steps and
layouts in the neighboring steps do not differ too much. Designing such a mild
forward process is however very challenging as layout has both categorical
attributes and ordinal attributes. To tackle the challenge, we summarize three
critical factors for achieving a mild forward process for the layout, i.e.,
legality, coordinate proximity and type disruption. Based on the factors, we
propose a block-wise transition matrix coupled with a piece-wise linear noise
schedule. Experiments on RICO and PubLayNet datasets show that LayoutDiffusion
outperforms state-of-the-art approaches significantly. Moreover, it enables two
conditional layout generation tasks in a plug-and-play manner without
re-training and achieves better performance than existing methods.
- Abstract(参考訳): グラフィックレイアウトの作成はグラフィックデザインの基本的なステップです。
本研究では,レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
レイアウトは典型的には離散トークンのシーケンスとして表現されるので、layoutdiffusionモデルによるレイアウト生成は離散化拡散プロセスとして表される。
フォワードステップの成長と隣のステップでのレイアウトがあまり変化しないため、レイアウトがますます混乱する、軽度のフォワードプロセスを逆転することを学びます。
しかし、layoutにはカテゴリ属性と順序属性の両方があるため、このような穏やかな前方プロセスの設計は非常に難しい。
この課題に取り組むために,レイアウトの軽度なフォワードプロセス,すなわち合法性,座標近接性,型破壊を実現するための3つの重要な要素を要約する。
そこで本研究では,ブロック単位の遷移行列と,片単位の線形雑音スケジュールを結合する手法を提案する。
RICOとPubLayNetデータセットの実験は、LayoutDiffusionが最先端のアプローチを大幅に上回っていることを示している。
さらに、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再学習することなく実現し、既存の方法よりも優れた性能を実現する。
関連論文リスト
- Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - LayoutFlow: Flow Matching for Layout Generation [23.045325684880957]
高品質なレイアウトを生成することができる効率的なフローベースモデルを提案する。
提案手法は,最終予測に到達するまで,初期サンプルの要素を徐々に移動し,流れていくことを学習する。
論文 参考訳(メタデータ) (2024-03-27T01:40:21Z) - Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - A Parse-Then-Place Approach for Generating Graphic Layouts from Textual
Descriptions [50.469491454128246]
我々は、図形レイアウト、すなわちテキストからラベルへのレイアウトを作成するためのガイダンスとしてテキストを使用し、設計障壁を低くすることを目的としています。
テキストからラベルへの変換は、テキストからの暗黙的、複合的、不完全な制約を考慮する必要があるため、難しい作業である。
この問題に対処するための2段階のアプローチとして,パース・セイン・プレース(parse-then-place)を提案する。
論文 参考訳(メタデータ) (2023-08-24T10:37:00Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDM: Discrete Diffusion Model for Controllable Layout Generation [27.955214767628107]
制御可能なレイアウト生成は、任意の制約で要素境界ボックスの妥当な配置を合成することを目的としている。
本研究では、離散状態空間拡散モデルに基づく単一モデルにおいて、幅広いレイアウト生成タスクを解くことを試みる。
我々のモデルはLayoutDMと呼ばれ、離散表現の構造化レイアウトデータを自然に処理し、初期入力からノイズレスレイアウトを段階的に推測することを学ぶ。
論文 参考訳(メタデータ) (2023-03-14T17:59:47Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。