論文の概要: Retrieval-Augmented Layout Transformer for Content-Aware Layout
Generation
- arxiv url: http://arxiv.org/abs/2311.13602v2
- Date: Mon, 4 Mar 2024 07:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:39:52.130344
- Title: Retrieval-Augmented Layout Transformer for Content-Aware Layout
Generation
- Title(参考訳): コンテンツ対応レイアウト生成のための検索拡張レイアウト変換器
- Authors: Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu
Aizawa
- Abstract要約: コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。
単純な検索拡張により生成品質が大幅に向上することを示す。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
- 参考スコア(独自算出の注目度): 32.294339796233785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-aware graphic layout generation aims to automatically arrange visual
elements along with a given content, such as an e-commerce product image. In
this paper, we argue that the current layout generation approaches suffer from
the limited training data for the high-dimensional layout structure. We show
that a simple retrieval augmentation can significantly improve the generation
quality. Our model, which is named Retrieval-Augmented Layout Transformer
(RALF), retrieves nearest neighbor layout examples based on an input image and
feeds these results into an autoregressive generator. Our model can apply
retrieval augmentation to various controllable generation tasks and yield
high-quality layouts within a unified architecture. Our extensive experiments
show that RALF successfully generates content-aware layouts in both constrained
and unconstrained settings and significantly outperforms the baselines.
- Abstract(参考訳): コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。
本稿では,現在のレイアウト生成手法が,高次元レイアウト構造のための限られたトレーニングデータに苦しむことを論じる。
単純な検索拡張により生成品質が大幅に向上することを示す。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
本モデルは,様々な制御可能な生成タスクに検索拡張を適用し,統一アーキテクチャ内で高品質なレイアウトを実現する。
我々の広範囲な実験により、RALFは制約付きおよび制約なしの設定の両方でコンテンツ認識レイアウトをうまく生成し、ベースラインを大幅に上回ることを示した。
関連論文リスト
- Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - LayoutDM: Transformer-based Diffusion Model for Layout Generation [0.6445605125467572]
高品質な画像を生成するためにトランスフォーマーベース拡散モデル(DDPM)を提案する。
雑音配置データからサンプルを生成するために,トランスフォーマを用いた条件付きレイアウトデノイザを提案する。
本手法は, 品質と多様性の観点から, 最先端の生成モデルより優れる。
論文 参考訳(メタデータ) (2023-05-04T05:51:35Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image
Generation [150.61390274654968]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究であり,訓練作業率,作物・ペースト対リペイント,世代順等について述べる。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - LayoutDiffusion: Improving Graphic Layout Generation by Discrete
Diffusion Probabilistic Models [50.73105631853759]
レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。
このプロセスでは,前方ステップの成長に伴うレイアウトの混乱が増している。
これにより、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再トレーニングすることなく実現し、既存の方法よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-21T04:41:02Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [81.5482196644596]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z) - BLT: Bidirectional Layout Transformer for Controllable Layout Generation [27.239276265955954]
条件付きレイアウト生成のための双方向レイアウト変換器であるBLTを導入する。
提案手法は, 各種忠実度指標を用いた複数のベンチマークで検証する。
以上の結果から,最新のレイアウトトランスモデルに対する2つの重要な進歩が示された。
論文 参考訳(メタデータ) (2021-12-09T18:49:28Z) - Variational Transformer Networks for Layout Generation [39.25496294840713]
レイアウトにおける要素間の関係を捉えるために,自己対応層の特性を利用する。
提案する変分変換ネットワーク(VTN)は,明示的な監督なしにマージン,アライメント,その他のグローバルな設計規則を学習することができる。
論文 参考訳(メタデータ) (2021-04-06T10:45:53Z) - House-GAN++: Generative Adversarial Layout Refinement Networks [37.60108582423617]
我々のアーキテクチャはグラフ制約付きGANと条件付きGANの統合であり、そこでは以前に生成されたレイアウトが次の入力制約となる。
我々の研究の驚くべき発見は、コンポーネントワイドGTコンディショニングと呼ばれる単純な非イテレーティブトレーニングプロセスが、そのようなジェネレータの学習に有効であることである。
論文 参考訳(メタデータ) (2021-03-03T18:15:52Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。