論文の概要: LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer
- arxiv url: http://arxiv.org/abs/2212.09877v3
- Date: Fri, 24 Mar 2023 08:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:53:32.618258
- Title: LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer
- Title(参考訳): layoutdetr: detection transformerは優れたマルチモーダルレイアウトデザイナである
- Authors: Ning Yu, Chia-Chih Chen, Zeyuan Chen, Rui Meng, Gang Wu, Paul Josel,
Juan Carlos Niebles, Caiming Xiong, Ran Xu
- Abstract要約: グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
- 参考スコア(独自算出の注目度): 81.5482196644596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphic layout designs play an essential role in visual communication. Yet
handcrafting layout designs is skill-demanding, time-consuming, and
non-scalable to batch production. Generative models emerge to make design
automation scalable but it remains non-trivial to produce designs that comply
with designers' multimodal desires, i.e., constrained by background images and
driven by foreground content. We propose LayoutDETR that inherits the high
quality and realism from generative modeling, while reformulating content-aware
requirements as a detection problem: we learn to detect in a background image
the reasonable locations, scales, and spatial relations for multimodal
foreground elements in a layout. Our solution sets a new state-of-the-art
performance for layout generation on public benchmarks and on our newly-curated
ad banner dataset. We integrate our solution into a graphical system that
facilitates user studies, and show that users prefer our designs over baselines
by significant margins. Our code, models, dataset, graphical system, and demos
are available at https://github.com/salesforce/LayoutDETR.
- Abstract(参考訳): グラフィックレイアウト設計は視覚コミュニケーションにおいて重要な役割を果たす。
しかし、手作りのレイアウト設計は、スキル要求、時間消費、バッチ生産への非スカラブルである。
生成モデルは、デザインの自動化をスケーラブルにするために出現するが、デザイナーのマルチモーダルな願望、すなわち背景画像によって制約され、前景コンテンツによって駆動されるデザインを作成することは、いまだに自明ではない。
本研究では,生成モデルから高品質かつ現実性を継承するLayoutDETRを提案するとともに,コンテンツ認識要求を検出問題として再定義し,背景画像から適切な位置,スケール,空間的関係をレイアウトで検出する。
当社のソリューションは、パブリックベンチマークと新たに調達したad bannerデータセットで、レイアウト生成のための新たな最先端のパフォーマンスを設定します。
ユーザの学習を促進するグラフィカルなシステムにソリューションを統合することで,ユーザがベースラインよりもデザインを好むことを示す。
私たちのコード、モデル、データセット、グラフィカルシステム、デモはhttps://github.com/salesforce/LayoutDETRで公開されています。
関連論文リスト
- Desigen: A Pipeline for Controllable Design Template Generation [69.51563467689795]
Desigenは、背景画像と背景上のレイアウト要素を生成する自動テンプレート生成パイプラインである。
背景生成過程において,サリエンシ分布を制限し,所望領域の注意重みを低減させる2つの手法を提案する。
実験により、提案したパイプラインは人間の設計に匹敵する高品質なテンプレートを生成することが示された。
論文 参考訳(メタデータ) (2024-03-14T04:32:28Z) - Towards Aligned Layout Generation via Diffusion Model with Aesthetic
Constraints [51.48125123822496]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - Retrieval-Augmented Layout Transformer for Content-Aware Layout
Generation [32.294339796233785]
コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。
単純な検索拡張により生成品質が大幅に向上することを示す。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
論文 参考訳(メタデータ) (2023-11-22T18:59:53Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs [24.29890251913182]
与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:42:13Z) - The Layout Generation Algorithm of Graphic Design Based on
Transformer-CVAE [8.052709336750823]
本稿では,トランスフォーマーモデルと条件変分オートエンコーダ(CVAE)をグラフィックデザインレイアウト生成タスクに実装した。
これはLayoutT-CVAEと呼ばれるエンドツーエンドのグラフィックデザインレイアウト生成モデルを提案した。
既存の最先端モデルと比較して、当社が生成したレイアウトは、多くのメトリクスでより良く機能します。
論文 参考訳(メタデータ) (2021-10-08T13:36:02Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。