論文の概要: Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
- arxiv url: http://arxiv.org/abs/2311.13602v4
- Date: Mon, 15 Apr 2024 23:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:45:27.889590
- Title: Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
- Title(参考訳): コンテンツ対応レイアウト生成のための検索拡張レイアウト変換器
- Authors: Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa,
- Abstract要約: コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。
単純な検索拡張により生成品質が大幅に向上することを示す。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
- 参考スコア(独自算出の注目度): 30.101562738257588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-aware graphic layout generation aims to automatically arrange visual elements along with a given content, such as an e-commerce product image. In this paper, we argue that the current layout generation approaches suffer from the limited training data for the high-dimensional layout structure. We show that a simple retrieval augmentation can significantly improve the generation quality. Our model, which is named Retrieval-Augmented Layout Transformer (RALF), retrieves nearest neighbor layout examples based on an input image and feeds these results into an autoregressive generator. Our model can apply retrieval augmentation to various controllable generation tasks and yield high-quality layouts within a unified architecture. Our extensive experiments show that RALF successfully generates content-aware layouts in both constrained and unconstrained settings and significantly outperforms the baselines.
- Abstract(参考訳): コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。
本稿では,現在のレイアウト生成手法が,高次元レイアウト構造に対する限られたトレーニングデータに悩まされていることを論じる。
単純な検索拡張により生成品質が大幅に向上することを示す。
Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
本モデルでは, 各種制御可能な生成タスクに検索拡張を適用し, 統一アーキテクチャ内での高品質なレイアウトを実現する。
我々の広範囲な実験により、RALFは制約と制約のない設定の両方でコンテンツ認識レイアウトをうまく生成し、ベースラインを大幅に上回ることを示した。
関連論文リスト
- Group Diffusion Transformers are Unsupervised Multitask Learners [49.288489286276146]
GDT(Group Diffusion Transformers)は、多様な視覚生成タスクを統合する新しいフレームワークである。
GDTは、画像間で自己注意トークンを連結することにより、最小限のアーキテクチャ変更で拡散トランスフォーマーを構築する。
我々は、30の視覚生成タスクに200以上の命令を割り当てたベンチマークでGDTを評価した。
論文 参考訳(メタデータ) (2024-10-19T07:53:15Z) - LayoutDiT: Exploring Content-Graphic Balance in Layout Generation with Diffusion Transformer [46.67415676699221]
我々は、高品質で視覚的に魅力的なレイアウトを生成するために、コンテンツとグラフィック機能のバランスをとるフレームワークを導入する。
具体的には、レイアウト生成空間に対するモデルの認識を最適化する適応係数を設計する。
また、視覚領域における画像と幾何学パラメータ領域におけるレイアウトのモダリティ差を橋渡しするために、図形条件であるサリエンシ境界ボックスを導入する。
論文 参考訳(メタデータ) (2024-07-21T17:58:21Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation [6.855409699832414]
PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。
評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。
これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
論文 参考訳(メタデータ) (2024-04-01T08:46:35Z) - LayoutDM: Transformer-based Diffusion Model for Layout Generation [0.6445605125467572]
高品質な画像を生成するためにトランスフォーマーベース拡散モデル(DDPM)を提案する。
雑音配置データからサンプルを生成するために,トランスフォーマを用いた条件付きレイアウトデノイザを提案する。
本手法は, 品質と多様性の観点から, 最先端の生成モデルより優れる。
論文 参考訳(メタデータ) (2023-05-04T05:51:35Z) - Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation [147.81509219686419]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。
次に,新しいベースラインであるIterInpaintを提案する。
本研究はIterInpaintに関する総合的アブレーション研究である。
論文 参考訳(メタデータ) (2023-04-13T16:58:33Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z) - BLT: Bidirectional Layout Transformer for Controllable Layout Generation [27.239276265955954]
条件付きレイアウト生成のための双方向レイアウト変換器であるBLTを導入する。
提案手法は, 各種忠実度指標を用いた複数のベンチマークで検証する。
以上の結果から,最新のレイアウトトランスモデルに対する2つの重要な進歩が示された。
論文 参考訳(メタデータ) (2021-12-09T18:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。