論文の概要: Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation
- arxiv url: http://arxiv.org/abs/2209.00852v1
- Date: Fri, 2 Sep 2022 07:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:57:26.014221
- Title: Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation
- Title(参考訳): 画像条件付きレイアウト生成のための幾何配向変分変換器
- Authors: Yunning Cao, Ye Ma, Min Zhou, Chuanbin Liu, Hongtao Xie, Tiezheng Ge,
Yuning Jiang
- Abstract要約: 画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
- 参考スコア(独自算出の注目度): 38.747175229902396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layout generation is a novel task in computer vision, which combines the
challenges in both object localization and aesthetic appraisal, widely used in
advertisements, posters, and slides design. An accurate and pleasant layout
should consider both the intra-domain relationship within layout elements and
the inter-domain relationship between layout elements and the image. However,
most previous methods simply focus on image-content-agnostic layout generation,
without leveraging the complex visual information from the image. To this end,
we explore a novel paradigm entitled image-conditioned layout generation, which
aims to add text overlays to an image in a semantically coherent manner.
Specifically, we propose an Image-Conditioned Variational Transformer (ICVT)
that autoregressively generates various layouts in an image. First,
self-attention mechanism is adopted to model the contextual relationship within
layout elements, while cross-attention mechanism is used to fuse the visual
information of conditional images. Subsequently, we take them as building
blocks of conditional variational autoencoder (CVAE), which demonstrates
appealing diversity. Second, in order to alleviate the gap between layout
elements domain and visual domain, we design a Geometry Alignment module, in
which the geometric information of the image is aligned with the layout
representation. In addition, we construct a large-scale advertisement poster
layout designing dataset with delicate layout and saliency map annotations.
Experimental results show that our model can adaptively generate layouts in the
non-intrusive area of the image, resulting in a harmonious layout design.
- Abstract(参考訳): レイアウト生成はコンピュータビジョンにおける新しいタスクであり、オブジェクトのローカライゼーションと美的評価の両方の課題を組み合わせるもので、広告、ポスター、スライドデザインで広く使われている。
正確なレイアウトは、レイアウト要素内のドメイン内関係と、レイアウト要素と画像の間のドメイン間関係の両方を考慮する必要がある。
しかし、従来のほとんどの手法は画像からの複雑な視覚情報を活用することなく、画像内容に依存しないレイアウト生成にのみフォーカスする。
この目的のために,画像にテキストオーバーレイを意味的にコヒーレントに付加することを目的とした,イメージコンディショニングレイアウト生成という新しいパラダイムを探求する。
具体的には,画像中の様々なレイアウトを自動回帰的に生成するICVTを提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、条件付き画像の視覚情報を融合するためにクロスアテンション機構を用いる。
次に,条件付き変分オートエンコーダ(cvae)の構成要素として,多様性を示す。
第2に,レイアウト要素領域と視覚領域のギャップを軽減するため,画像の幾何学的情報がレイアウト表現に一致した幾何学的アライメントモジュールを設計する。
さらに,デリケートなレイアウトとサリエンシーマップアノテーションを備えたデータセットをデザインする大規模広告ポスターレイアウトを構築した。
実験結果から,画像の非侵入領域におけるレイアウトを適応的に生成できることがわかった。
関連論文リスト
- LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - Layout-Bridging Text-to-Image Synthesis [20.261873143881573]
我々は、テキスト・ツー・イメージ生成とレイアウト・ツー・イメージ合成の両方において効果的なモデリングを推し進める。
入力テキストをレイアウト・ツー・イメージ合成プロセスに正確に組み込むために,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習することに注力する。
論文 参考訳(メタデータ) (2022-08-12T08:21:42Z) - Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs [24.29890251913182]
与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:42:13Z) - Interactive Image Synthesis with Panoptic Layout Generation [14.1026819862002]
本稿では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、アモルファス境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティクス理論を採用している。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルとPLGANを実験的に比較した。
論文 参考訳(メタデータ) (2022-03-04T02:45:27Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - Scene Graph to Image Generation with Contextualized Object Layout
Refinement [92.85331019618332]
シーングラフから画像を生成する新しい手法を提案する。
提案手法では,レイアウトのカバレッジを約20ポイント向上し,オブジェクトの重複量を無視できる量に削減する。
論文 参考訳(メタデータ) (2020-09-23T06:27:54Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。