論文の概要: LayoutDM: Discrete Diffusion Model for Controllable Layout Generation
- arxiv url: http://arxiv.org/abs/2303.08137v1
- Date: Tue, 14 Mar 2023 17:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:41:10.834105
- Title: LayoutDM: Discrete Diffusion Model for Controllable Layout Generation
- Title(参考訳): LayoutDM:制御可能なレイアウト生成のための離散拡散モデル
- Authors: Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota
Yamaguchi
- Abstract要約: 制御可能なレイアウト生成は、任意の制約で要素境界ボックスの妥当な配置を合成することを目的としている。
本研究では、離散状態空間拡散モデルに基づく単一モデルにおいて、幅広いレイアウト生成タスクを解くことを試みる。
我々のモデルはLayoutDMと呼ばれ、離散表現の構造化レイアウトデータを自然に処理し、初期入力からノイズレスレイアウトを段階的に推測することを学ぶ。
- 参考スコア(独自算出の注目度): 27.955214767628107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable layout generation aims at synthesizing plausible arrangement of
element bounding boxes with optional constraints, such as type or position of a
specific element. In this work, we try to solve a broad range of layout
generation tasks in a single model that is based on discrete state-space
diffusion models. Our model, named LayoutDM, naturally handles the structured
layout data in the discrete representation and learns to progressively infer a
noiseless layout from the initial input, where we model the layout corruption
process by modality-wise discrete diffusion. For conditional generation, we
propose to inject layout constraints in the form of masking or logit adjustment
during inference. We show in the experiments that our LayoutDM successfully
generates high-quality layouts and outperforms both task-specific and
task-agnostic baselines on several layout tasks.
- Abstract(参考訳): 制御可能なレイアウト生成は、特定の要素の型や位置といった任意の制約付き要素バウンディングボックスの可能な配置を合成することを目的としている。
本研究では,離散状態空間拡散モデルに基づく単一モデルにおいて,幅広いレイアウト生成タスクを解こうとする。
layoutdmと名づけたこのモデルでは,構造化レイアウトデータを離散表現で処理し,初期入力からノイズのないレイアウトを漸進的に推測することを学び,モダリティを考慮した離散拡散によるレイアウト破壊過程をモデル化する。
条件付き生成では,推論中のマスキングやロジット調整の形でレイアウト制約を注入する。
実験の結果、LayoutDMは高品質なレイアウトを生成でき、複数のレイアウトタスクにおいてタスク固有のベースラインとタスクに依存しないベースラインの両方に優れることがわかった。
関連論文リスト
- LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [81.5482196644596]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
生成モデルから高品質およびリアリズムを継承するtextitDETRを提案する。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - UniLayout: Taming Unified Sequence-to-Sequence Transformers for Graphic
Layout Generation [40.14176140624405]
図形レイアウト生成のための異なるサブタスクを統一的に処理するUniを提案する。
まず、トークンのシーケンスとしてサブタスクの多様な入力と出力を均一に表現する。
統一シーケンスフォーマットに基づいて、異なるサブタスクに対してTransformerと同一のエンコーダデコーダアーキテクチャを自然に活用する。
論文 参考訳(メタデータ) (2022-08-17T02:43:23Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - COFS: Controllable Furniture layout Synthesis [40.68096097121981]
多くの既存手法は、レイアウトの要素に特定の順序を課すシーケンス生成問題としてこの問題に対処している。
言語モデリングから標準トランスフォーマーアーキテクチャブロックに基づくアーキテクチャであるCOFSを提案する。
我々のモデルは、定量的評価によって検証する他の方法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-29T13:31:18Z) - Interactive Image Synthesis with Panoptic Layout Generation [14.1026819862002]
本稿では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、アモルファス境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティクス理論を採用している。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルとPLGANを実験的に比較した。
論文 参考訳(メタデータ) (2022-03-04T02:45:27Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z) - Unsupervised multi-modal Styled Content Generation [61.040392094140245]
UMMGANは、教師なし方式でマルチモーダル分布をモデル化するために設計された新しいアーキテクチャである。
UMMGANはモードとスタイルを効果的に切り離し、生成したコンテンツに対して独立した制御を行うことができることを示す。
論文 参考訳(メタデータ) (2020-01-10T19:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。