Fugu-MT 論文翻訳(概要): LayoutDM: Discrete Diffusion Model for Controllable Layout Generation

論文の概要: LayoutDM: Discrete Diffusion Model for Controllable Layout Generation

arxiv url: http://arxiv.org/abs/2303.08137v1
Date: Tue, 14 Mar 2023 17:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 13:41:10.834105
Title: LayoutDM: Discrete Diffusion Model for Controllable Layout Generation
Title（参考訳）: LayoutDM:制御可能なレイアウト生成のための離散拡散モデル
Authors: Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi
Abstract要約: 制御可能なレイアウト生成は、任意の制約で要素境界ボックスの妥当な配置を合成することを目的としている。本研究では、離散状態空間拡散モデルに基づく単一モデルにおいて、幅広いレイアウト生成タスクを解くことを試みる。我々のモデルはLayoutDMと呼ばれ、離散表現の構造化レイアウトデータを自然に処理し、初期入力からノイズレスレイアウトを段階的に推測することを学ぶ。
参考スコア（独自算出の注目度）: 27.955214767628107
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controllable layout generation aims at synthesizing plausible arrangement of element bounding boxes with optional constraints, such as type or position of a specific element. In this work, we try to solve a broad range of layout generation tasks in a single model that is based on discrete state-space diffusion models. Our model, named LayoutDM, naturally handles the structured layout data in the discrete representation and learns to progressively infer a noiseless layout from the initial input, where we model the layout corruption process by modality-wise discrete diffusion. For conditional generation, we propose to inject layout constraints in the form of masking or logit adjustment during inference. We show in the experiments that our LayoutDM successfully generates high-quality layouts and outperforms both task-specific and task-agnostic baselines on several layout tasks.
Abstract（参考訳）: 制御可能なレイアウト生成は、特定の要素の型や位置といった任意の制約付き要素バウンディングボックスの可能な配置を合成することを目的としている。本研究では,離散状態空間拡散モデルに基づく単一モデルにおいて,幅広いレイアウト生成タスクを解こうとする。 layoutdmと名づけたこのモデルでは,構造化レイアウトデータを離散表現で処理し,初期入力からノイズのないレイアウトを漸進的に推測することを学び,モダリティを考慮した離散拡散によるレイアウト破壊過程をモデル化する。条件付き生成では,推論中のマスキングやロジット調整の形でレイアウト制約を注入する。実験の結果、LayoutDMは高品質なレイアウトを生成でき、複数のレイアウトタスクにおいてタスク固有のベースラインとタスクに依存しないベースラインの両方に優れることがわかった。

関連論文リスト

CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。従来の手法は主にUNetベースのモデル(SD1.5やSDXLなど)に重点を置いており、限られた努力でMM-DiT(Multimodal Diffusion Transformer)を探索している。 MM-DiTの利点を継承して、画像とテキストのモダリティを処理するために、別々の集合ネットワーク重みを用いる。大規模なレイアウトデータセットであるLayoutSAMには、270万のイメージテキストペアと1070万のエンティティが含まれています。
論文参考訳（メタデータ） (2024-12-05T04:09:47Z)
Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model [3.8748565070264753]
本稿では,レイアウトの調和を考慮し,レイアウト内の不調和要素を識別できる学習ベースモジュールを提案する。このモジュールは、様々な最先端DDMと組み合わせてレイアウト生成性能を継続的に向上させる。
論文参考訳（メタデータ） (2024-09-25T07:24:43Z)
LayoutDiT: Exploring Content-Graphic Balance in Layout Generation with Diffusion Transformer [46.67415676699221]
我々は、高品質で視覚的に魅力的なレイアウトを生成するために、コンテンツとグラフィック機能のバランスをとるフレームワークを導入する。具体的には、レイアウト生成空間に対するモデルの認識を最適化する適応係数を設計する。また、視覚領域における画像と幾何学パラメータ領域におけるレイアウトのモダリティ差を橋渡しするために、図形条件であるサリエンシ境界ボックスを導入する。
論文参考訳（メタデータ） (2024-07-21T17:58:21Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。このモデルは連続拡散モデルに基づいている。実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文参考訳（メタデータ） (2024-02-07T11:12:41Z)
LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文参考訳（メタデータ） (2023-03-30T06:56:12Z)
LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-21T04:41:02Z)
Unifying Layout Generation with a Decoupled Diffusion Model [26.659337441975143]
これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。単一分離拡散モデルでそのような統一を実現するためのレイアウト拡散生成モデル(LDGM)を提案する。提案するLDGMは,任意の属性に対してスクラッチあるいは条件付きでレイアウトを生成することができる。
論文参考訳（メタデータ） (2023-03-09T05:53:32Z)
DLT: Conditioned layout generation with Joint Discrete-Continuous Diffusion Layout Transformer [2.0483033421034142]
DLTは離散連続拡散モデルである。 DLTにはフレキシブルな条件付け機構があり、すべてのレイアウトコンポーネントクラス、場所、サイズのいずれかのサブセットを条件付けできる。提案手法は,様々なレイアウト生成データセット上で,様々なメトリクスや条件設定に対して,最先端の生成モデルより優れています。
論文参考訳（メタデータ） (2023-03-07T09:30:43Z)
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文参考訳（メタデータ） (2022-12-19T21:57:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。