論文の概要: Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs
- arxiv url: http://arxiv.org/abs/2205.00303v1
- Date: Sat, 30 Apr 2022 16:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 08:51:39.112140
- Title: Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs
- Title(参考訳): ビジュアルテキスト提示設計のための合成対応グラフィカルレイアウトGAN
- Authors: Min Zhou, Chenchen Xu, Ye Ma, Tiezheng Ge, Yuning Jiang and Weiwei Xu
- Abstract要約: 与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
- 参考スコア(独自算出の注目度): 24.29890251913182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the graphic layout generation problem of producing
high-quality visual-textual presentation designs for given images. We note that
image compositions, which contain not only global semantics but also spatial
information, would largely affect layout results. Hence, we propose a deep
generative model, dubbed as composition-aware graphic layout GAN (CGL-GAN), to
synthesize layouts based on the global and spatial visual contents of input
images. To obtain training images from images that already contain manually
designed graphic layout data, previous work suggests masking design elements
(e.g., texts and embellishments) as model inputs, which inevitably leaves hint
of the ground truth. We study the misalignment between the training inputs
(with hint masks) and test inputs (without masks), and design a novel domain
alignment module (DAM) to narrow this gap. For training, we built a large-scale
layout dataset which consists of 60,548 advertising posters with annotated
layout information. To evaluate the generated layouts, we propose three novel
metrics according to aesthetic intuitions. Through both quantitative and
qualitative evaluations, we demonstrate that the proposed model can synthesize
high-quality graphic layouts according to image compositions.
- Abstract(参考訳): 本稿では,与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
グローバルなセマンティクスだけでなく空間情報も含む画像合成は、レイアウト結果に大きく影響する。
そこで我々は,入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成する,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
すでに手作業で設計したグラフィックレイアウトデータを含む画像からトレーニング画像を得るため、先行研究ではモデル入力としてマスキングデザイン要素(例えば、テキストや装飾)を示唆しており、必然的に根拠のヒントを残している。
本研究では、トレーニング入力(ヒントマスク付き)とテスト入力(マスクなし)の相違について検討し、このギャップを狭めるために新しいドメインアライメントモジュール(DAM)を設計する。
トレーニングのために,アノテートレイアウト情報付き60,548個の広告ポスターからなる大規模レイアウトデータセットを構築した。
生成したレイアウトを評価するために,美的直感に基づく3つの新しい指標を提案する。
定量的および定性的な評価によって,提案モデルが画像組成に応じて高品質なグラフィックレイアウトを合成できることを実証する。
関連論文リスト
- Self-supervised Photographic Image Layout Representation Learning [5.009120058742792]
我々は,不均一なレイアウトグラフを正確に,次元的に再現されたレイアウト表現に圧縮する,オートエンコーダに基づくネットワークアーキテクチャを開発した。
より広い範囲のレイアウトカテゴリとよりリッチなセマンティクスを備えたLODBデータセットを紹介します。
このデータセットに対する広範な実験は、写真画像レイアウト表現学習の領域における我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-03-06T14:28:53Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - Unsupervised Domain Adaption with Pixel-level Discriminator for
Image-aware Layout Generation [24.625282719753915]
本稿では、画像コンテンツに条件付けされたGANモデルを用いて、広告ポスターのグラフィックレイアウトを生成することに焦点を当てる。
教師なしのドメイン技術と、PDA-GANと呼ばれる新しいピクセルレベルの識別器(PD)を組み合わせることで、画像の内容に応じてグラフィックレイアウトを生成する。
定量的および定性的な評価はPDA-GANが最先端の性能を達成できることを証明している。
論文 参考訳(メタデータ) (2023-03-25T06:50:22Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z) - Interactive Image Synthesis with Panoptic Layout Generation [14.1026819862002]
本稿では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、アモルファス境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティクス理論を採用している。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルとPLGANを実験的に比較した。
論文 参考訳(メタデータ) (2022-03-04T02:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。