論文の概要: Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model
- arxiv url: http://arxiv.org/abs/2409.16689v1
- Date: Wed, 25 Sep 2024 07:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 05:00:58.116174
- Title: Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model
- Title(参考訳): Layout-Corrector:離散拡散モデルにおけるLayout Sticking現象の緩和
- Authors: Shoma Iwai, Atsuki Osanai, Shunsuke Kitada, Shinichiro Omachi,
- Abstract要約: 本稿では,レイアウトの調和を考慮し,レイアウト内の不調和要素を識別できる学習ベースモジュールを提案する。
このモジュールは、様々な最先端DDMと組み合わせてレイアウト生成性能を継続的に向上させる。
- 参考スコア(独自算出の注目度): 3.8748565070264753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout generation is a task to synthesize a harmonious layout with elements characterized by attributes such as category, position, and size. Human designers experiment with the placement and modification of elements to create aesthetic layouts, however, we observed that current discrete diffusion models (DDMs) struggle to correct inharmonious layouts after they have been generated. In this paper, we first provide novel insights into layout sticking phenomenon in DDMs and then propose a simple yet effective layout-assessment module Layout-Corrector, which works in conjunction with existing DDMs to address the layout sticking problem. We present a learning-based module capable of identifying inharmonious elements within layouts, considering overall layout harmony characterized by complex composition. During the generation process, Layout-Corrector evaluates the correctness of each token in the generated layout, reinitializing those with low scores to the ungenerated state. The DDM then uses the high-scored tokens as clues to regenerate the harmonized tokens. Layout-Corrector, tested on common benchmarks, consistently boosts layout-generation performance when in conjunction with various state-of-the-art DDMs. Furthermore, our extensive analysis demonstrates that the Layout-Corrector (1) successfully identifies erroneous tokens, (2) facilitates control over the fidelity-diversity trade-off, and (3) significantly mitigates the performance drop associated with fast sampling.
- Abstract(参考訳): レイアウト生成は、カテゴリー、位置、サイズなどの属性によって特徴付けられる要素で調和したレイアウトを合成するタスクである。
人間の設計者は、審美的レイアウトを作成するために要素の配置と修正を実験したが、現在の離散拡散モデル(DDM)は、生成後の不調和なレイアウトを修正するのに苦労している。
本稿では,DDMにおけるレイアウトストレッチ現象に関する新たな知見を最初に提示し,既存のDDMと協調してレイアウトストレッチ問題に対処するシンプルなレイアウトアセスメントモジュールであるLayout-Correctorを提案する。
複雑な構成によって特徴づけられる全体のレイアウト調和を考慮して,レイアウト内の不調和要素を識別できる学習ベースモジュールを提案する。
生成プロセス中、Layout-Correctorは生成されたレイアウトにおける各トークンの正しさを評価し、低スコアのトークンを非生成状態に再起動する。
DDMはハイスコアのトークンを、調和したトークンを再生するための手がかりとして使用する。
一般的なベンチマークでテストされているLayout-Correctorは、さまざまな最先端DDMと組み合わせてレイアウト生成性能を継続的に向上する。
さらに,Layout-Corrector (1) は不正なトークンの識別に成功し,(2) 忠実度と多様性のトレードオフの制御を容易にし,(3) 高速サンプリングに伴う性能低下を著しく軽減することを示した。
関連論文リスト
- Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Check, Locate, Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation [23.033381812631443]
そこで本研究では,フライ時の生成過程に介入する,トレーニング不要なレイアウト校正システムSimMを提案する。
具体的には、"チェック位置修正"パイプラインに従って、システムはまずターゲットレイアウトを生成するプロンプトを分析し、中間出力と比較してエラーを自動的に検出する。
そして、位置したアクティベーションを移動させ、マップ内およびマップ間調整を行うことで、補正処理を無視可能な計算オーバーヘッドで行うことができる。
論文 参考訳(メタデータ) (2023-11-27T12:48:33Z) - LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language
Models [84.16541551923221]
本稿では,レイアウト生成をコード生成タスクとして扱うモデルを提案する。
3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発した。
複数のデータセット上で、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-09-18T06:35:10Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-21T04:41:02Z) - LayoutDM: Discrete Diffusion Model for Controllable Layout Generation [27.955214767628107]
制御可能なレイアウト生成は、任意の制約で要素境界ボックスの妥当な配置を合成することを目的としている。
本研究では、離散状態空間拡散モデルに基づく単一モデルにおいて、幅広いレイアウト生成タスクを解くことを試みる。
我々のモデルはLayoutDMと呼ばれ、離散表現の構造化レイアウトデータを自然に処理し、初期入力からノイズレスレイアウトを段階的に推測することを学ぶ。
論文 参考訳(メタデータ) (2023-03-14T17:59:47Z) - Unifying Layout Generation with a Decoupled Diffusion Model [26.659337441975143]
これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。
単一分離拡散モデルでそのような統一を実現するためのレイアウト拡散生成モデル(LDGM)を提案する。
提案するLDGMは,任意の属性に対してスクラッチあるいは条件付きでレイアウトを生成することができる。
論文 参考訳(メタデータ) (2023-03-09T05:53:32Z) - Layout-to-Image Translation with Double Pooling Generative Adversarial
Networks [76.83075646527521]
入力レイアウトからフォトリアリスティックでセマンティックに一貫性のある結果を生成するための新しいDouble Pooing GAN(DPGAN)を提案する。
また,角形プールモジュール (SPM) と矩形プールモジュール (RPM) からなる新しい二重プールモジュール (DPM) を提案する。
論文 参考訳(メタデータ) (2021-08-29T19:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。