Fugu-MT 論文翻訳(概要): LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models

論文の概要: LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models

arxiv url: http://arxiv.org/abs/2303.11589v2
Date: Tue, 15 Aug 2023 06:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 16:57:32.041693
Title: LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models
Title（参考訳）: LayoutDiffusion:離散拡散確率モデルによるグラフィックレイアウト生成の改善
Authors: Junyi Zhang, Jiaqi Guo, Shizhao Sun, Jian-Guang Lou, Dongmei Zhang
Abstract要約: レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 50.73105631853759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Creating graphic layouts is a fundamental step in graphic designs. In this work, we present a novel generative model named LayoutDiffusion for automatic layout generation. As layout is typically represented as a sequence of discrete tokens, LayoutDiffusion models layout generation as a discrete denoising diffusion process. It learns to reverse a mild forward process, in which layouts become increasingly chaotic with the growth of forward steps and layouts in the neighboring steps do not differ too much. Designing such a mild forward process is however very challenging as layout has both categorical attributes and ordinal attributes. To tackle the challenge, we summarize three critical factors for achieving a mild forward process for the layout, i.e., legality, coordinate proximity and type disruption. Based on the factors, we propose a block-wise transition matrix coupled with a piece-wise linear noise schedule. Experiments on RICO and PubLayNet datasets show that LayoutDiffusion outperforms state-of-the-art approaches significantly. Moreover, it enables two conditional layout generation tasks in a plug-and-play manner without re-training and achieves better performance than existing methods.
Abstract（参考訳）: グラフィックレイアウトの作成はグラフィックデザインの基本的なステップです。本研究では,レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。レイアウトは典型的には離散トークンのシーケンスとして表現されるので、layoutdiffusionモデルによるレイアウト生成は離散化拡散プロセスとして表される。フォワードステップの成長と隣のステップでのレイアウトがあまり変化しないため、レイアウトがますます混乱する、軽度のフォワードプロセスを逆転することを学びます。しかし、layoutにはカテゴリ属性と順序属性の両方があるため、このような穏やかな前方プロセスの設計は非常に難しい。この課題に取り組むために,レイアウトの軽度なフォワードプロセス,すなわち合法性,座標近接性,型破壊を実現するための3つの重要な要素を要約する。そこで本研究では,ブロック単位の遷移行列と,片単位の線形雑音スケジュールを結合する手法を提案する。 RICOとPubLayNetデータセットの実験は、LayoutDiffusionが最先端のアプローチを大幅に上回っていることを示している。さらに、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再学習することなく実現し、既存の方法よりも優れた性能を実現する。

関連論文リスト

LayoutDiT: Exploring Content-Graphic Balance in Layout Generation with Diffusion Transformer [46.67415676699221]
我々は、高品質で視覚的に魅力的なレイアウトを生成するために、コンテンツとグラフィック機能のバランスをとるフレームワークを導入する。具体的には、レイアウト生成空間に対するモデルの認識を最適化する適応係数を設計する。また、視覚領域における画像と幾何学パラメータ領域におけるレイアウトのモダリティ差を橋渡しするために、図形条件であるサリエンシ境界ボックスを導入する。
論文参考訳（メタデータ） (2024-07-21T17:58:21Z)
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文参考訳（メタデータ） (2024-07-01T15:43:25Z)
LayoutFlow: Flow Matching for Layout Generation [23.045325684880957]
高品質なレイアウトを生成することができる効率的なフローベースモデルを提案する。提案手法は,最終予測に到達するまで,初期サンプルの要素を徐々に移動し,流れていくことを学習する。
論文参考訳（メタデータ） (2024-03-27T01:40:21Z)
Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。このモデルは連続拡散モデルに基づいている。実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文参考訳（メタデータ） (2024-02-07T11:12:41Z)
Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文参考訳（メタデータ） (2024-01-16T20:31:46Z)
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文参考訳（メタデータ） (2023-10-13T05:48:42Z)
PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文参考訳（メタデータ） (2023-03-28T12:48:36Z)
LayoutDM: Discrete Diffusion Model for Controllable Layout Generation [27.955214767628107]
制御可能なレイアウト生成は、任意の制約で要素境界ボックスの妥当な配置を合成することを目的としている。本研究では、離散状態空間拡散モデルに基づく単一モデルにおいて、幅広いレイアウト生成タスクを解くことを試みる。我々のモデルはLayoutDMと呼ばれ、離散表現の構造化レイアウトデータを自然に処理し、初期入力からノイズレスレイアウトを段階的に推測することを学ぶ。
論文参考訳（メタデータ） (2023-03-14T17:59:47Z)
LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文参考訳（メタデータ） (2023-02-16T14:20:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。