論文の概要: LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer
- arxiv url: http://arxiv.org/abs/2212.09877v1
- Date: Mon, 19 Dec 2022 21:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:14:13.604833
- Title: LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer
- Title(参考訳): layoutdetr: detection transformerは優れたマルチモーダルレイアウトデザイナである
- Authors: Ning Yu, Chia-Chih Chen, Zeyuan Chen, Rui Meng, Gang Wu, Paul Josel,
Juan Carlos Niebles, Caiming Xiong, Ran Xu
- Abstract要約: グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
生成モデルから高品質およびリアリズムを継承するtextitDETRを提案する。
- 参考スコア(独自算出の注目度): 81.5482196644596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphic layout designs play an essential role in visual communication. Yet
handcrafting layout designs are skill-demanding, time-consuming, and
non-scalable to batch production. Although generative models emerge to make
design automation no longer utopian, it remains non-trivial to customize
designs that comply with designers' multimodal desires, i.e., constrained by
background images and driven by foreground contents. In this study, we propose
\textit{LayoutDETR} that inherits the high quality and realism from generative
modeling, in the meanwhile reformulating content-aware requirements as a
detection problem: we learn to detect in a background image the reasonable
locations, scales, and spatial relations for multimodal elements in a layout.
Experiments validate that our solution yields new state-of-the-art performance
for layout generation on public benchmarks and on our newly-curated ads banner
dataset. For practical usage, we build our solution into a graphical system
that facilitates user studies. We demonstrate that our designs attract more
subjective preference than baselines by significant margins. Our code, models,
dataset, graphical system, and demos are available at
https://github.com/salesforce/LayoutDETR.
- Abstract(参考訳): グラフィックレイアウト設計は視覚コミュニケーションにおいて重要な役割を果たす。
しかし、手作りのレイアウト設計は、スキル要求、時間消費、バッチ生産への非スカラブルである。
生成モデルは、設計の自動化をもはやユートピアにするものではないが、デザイナのマルチモーダルな欲求、すなわち背景画像によって制約され、前景コンテンツによって駆動されるデザインをカスタマイズすることは、依然として容易ではない。
本研究では,生成モデルから高品質とリアリズムを継承する \textit{layoutdetr} を提案する。一方,コンテンツ認識要件の再構成を検出問題として,背景画像から,レイアウトにおけるマルチモーダル要素の適度な位置,スケール,空間関係を検出することを学ぶ。
実験により、我々のソリューションは、公開ベンチマークや新しく作成した広告バナーデータセット上でレイアウト生成のために、新しい最先端のパフォーマンスをもたらすことが検証された。
実用的な利用のために,ユーザ研究を容易にするグラフィカルシステムを構築する。
我々のデザインは、基準よりも主観的嗜好を顕著なマージンで惹きつけることを実証する。
私たちのコード、モデル、データセット、グラフィカルシステム、デモはhttps://github.com/salesforce/LayoutDETRで公開されています。
関連論文リスト
- Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image
Generation [150.61390274654968]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究であり,訓練作業率,作物・ペースト対リペイント,世代順等について述べる。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - PLay: Parametrically Conditioned Layout Generation using Latent
Diffusion [18.130461065261354]
本研究では,ベクトル図形空間におけるパラメトリック条件付きレイアウトを生成する条件付き潜時拡散モデルPLayを構築した。
提案手法は,FIDやFD-VGを含む3つのデータセット,およびユーザテストにおいて,従来よりも優れている。
論文 参考訳(メタデータ) (2023-01-27T04:22:27Z) - Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs [24.29890251913182]
与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:42:13Z) - The Layout Generation Algorithm of Graphic Design Based on
Transformer-CVAE [8.052709336750823]
本稿では,トランスフォーマーモデルと条件変分オートエンコーダ(CVAE)をグラフィックデザインレイアウト生成タスクに実装した。
これはLayoutT-CVAEと呼ばれるエンドツーエンドのグラフィックデザインレイアウト生成モデルを提案した。
既存の最先端モデルと比較して、当社が生成したレイアウトは、多くのメトリクスでより良く機能します。
論文 参考訳(メタデータ) (2021-10-08T13:36:02Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z) - BachGAN: High-Resolution Image Synthesis from Salient Object Layout [78.51640906030244]
本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。
i) セグメンテーションマップ入力なしできめ細かい詳細と現実的なテクスチャを生成する方法、(ii) バックグラウンドを作成してスタンドアロンのオブジェクトにシームレスに織り込む方法である。
幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
論文 参考訳(メタデータ) (2020-03-26T00:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。