Fugu-MT 論文翻訳(概要): Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation

論文の概要: Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation

arxiv url: http://arxiv.org/abs/2311.13602v2
Date: Mon, 4 Mar 2024 07:55:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 01:39:52.130344
Title: Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
Title（参考訳）: コンテンツ対応レイアウト生成のための検索拡張レイアウト変換器
Authors: Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa
Abstract要約: コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。単純な検索拡張により生成品質が大幅に向上することを示す。 Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
参考スコア（独自算出の注目度）: 32.294339796233785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Content-aware graphic layout generation aims to automatically arrange visual elements along with a given content, such as an e-commerce product image. In this paper, we argue that the current layout generation approaches suffer from the limited training data for the high-dimensional layout structure. We show that a simple retrieval augmentation can significantly improve the generation quality. Our model, which is named Retrieval-Augmented Layout Transformer (RALF), retrieves nearest neighbor layout examples based on an input image and feeds these results into an autoregressive generator. Our model can apply retrieval augmentation to various controllable generation tasks and yield high-quality layouts within a unified architecture. Our extensive experiments show that RALF successfully generates content-aware layouts in both constrained and unconstrained settings and significantly outperforms the baselines.
Abstract（参考訳）: コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。本稿では,現在のレイアウト生成手法が,高次元レイアウト構造のための限られたトレーニングデータに苦しむことを論じる。単純な検索拡張により生成品質が大幅に向上することを示す。 Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。本モデルは,様々な制御可能な生成タスクに検索拡張を適用し,統一アーキテクチャ内で高品質なレイアウトを実現する。我々の広範囲な実験により、RALFは制約付きおよび制約なしの設定の両方でコンテンツ認識レイアウトをうまく生成し、ベースラインを大幅に上回ることを示した。

関連論文リスト

Layout-Conditioned Autoregressive Text-to-Image Generation via Structured Masking [58.238858463243396]
我々はARベースレイアウト・トゥ・イメージ(SMARLI)のための構造化マスキングを提案する。 SMARLIは空間レイアウト制約をARベースの画像生成に統合する。 ARモデルの構造的単純さと生成効率を維持しながら、優れたレイアウトアウェア制御を実現する。
論文参考訳（メタデータ） (2025-09-15T15:27:29Z)
ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models [7.288330685534444]
我々はReを導入する。ReはRelation-CoTを利用してより合理的で一貫性のあるレイアウトを生成する新しい手法である。具体的には、要素間の領域、完全性、マージンといった明示的な関係定義を導入することで、レイアウトアノテーションを強化する。また、3次元にわたるレイアウトプロトタイプ機能を定義し、異なるレイアウトスタイルを定量化するレイアウトプロトタイプサンプルも導入する。
論文参考訳（メタデータ） (2025-07-08T01:13:43Z)
CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文参考訳（メタデータ） (2025-06-27T06:09:56Z)
CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。レイアウト・ツー・イメージ生成は、より正確で制御可能な生成を可能にするために、地域固有の位置と記述を活用するために提案されている。本稿では、レイアウトモデル、データセット、プランナを統合した、創造的なレイアウト・ツー・イメージ生成のための体系的なソリューションを提案する。
論文参考訳（メタデータ） (2024-12-05T04:09:47Z)
Group Diffusion Transformers are Unsupervised Multitask Learners [49.288489286276146]
GDT(Group Diffusion Transformers)は、多様な視覚生成タスクを統合する新しいフレームワークである。 GDTは、画像間で自己注意トークンを連結することにより、最小限のアーキテクチャ変更で拡散トランスフォーマーを構築する。我々は、30の視覚生成タスクに200以上の命令を割り当てたベンチマークでGDTを評価した。
論文参考訳（メタデータ） (2024-10-19T07:53:15Z)
LayoutDiT: Exploring Content-Graphic Balance in Layout Generation with Diffusion Transformer [46.67415676699221]
我々は、高品質で視覚的に魅力的なレイアウトを生成するために、コンテンツとグラフィック機能のバランスをとるフレームワークを導入する。具体的には、レイアウト生成空間に対するモデルの認識を最適化する適応係数を設計する。また、視覚領域における画像と幾何学パラメータ領域におけるレイアウトのモダリティ差を橋渡しするために、図形条件であるサリエンシ境界ボックスを導入する。
論文参考訳（メタデータ） (2024-07-21T17:58:21Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation [6.855409699832414]
PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
論文参考訳（メタデータ） (2024-04-01T08:46:35Z)
LayoutDM: Transformer-based Diffusion Model for Layout Generation [0.6445605125467572]
高品質な画像を生成するためにトランスフォーマーベース拡散モデル(DDPM)を提案する。雑音配置データからサンプルを生成するために,トランスフォーマを用いた条件付きレイアウトデノイザを提案する。本手法は, 品質と多様性の観点から, 最先端の生成モデルより優れる。
論文参考訳（メタデータ） (2023-05-04T05:51:35Z)
Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation [147.81509219686419]
本研究では,空間制御の4つの分野(数,位置,サイズ,形状)について,レイアウト誘導画像生成のための診断ベンチマークを提案する。次に,新しいベースラインであるIterInpaintを提案する。本研究はIterInpaintに関する総合的アブレーション研究である。
論文参考訳（メタデータ） (2023-04-13T16:58:33Z)
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文参考訳（メタデータ） (2022-12-19T21:57:35Z)
Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。 HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文参考訳（メタデータ） (2022-08-07T16:23:33Z)
BLT: Bidirectional Layout Transformer for Controllable Layout Generation [27.239276265955954]
条件付きレイアウト生成のための双方向レイアウト変換器であるBLTを導入する。提案手法は, 各種忠実度指標を用いた複数のベンチマークで検証する。以上の結果から,最新のレイアウトトランスモデルに対する2つの重要な進歩が示された。
論文参考訳（メタデータ） (2021-12-09T18:49:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。