Fugu-MT 論文翻訳(概要): LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer

論文の概要: LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer

arxiv url: http://arxiv.org/abs/2212.09877v4
Date: Mon, 30 Sep 2024 11:49:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 22:48:40.586864
Title: LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer
Title（参考訳）: LayoutDETR: 検出変換器は良いマルチモーダルレイアウトデザイナ
Authors: Ning Yu, Chia-Chih Chen, Zeyuan Chen, Rui Meng, Gang Wu, Paul Josel, Juan Carlos Niebles, Caiming Xiong, Ran Xu,
Abstract要約: グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
参考スコア（独自算出の注目度）: 80.61492265221817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graphic layout designs play an essential role in visual communication. Yet handcrafting layout designs is skill-demanding, time-consuming, and non-scalable to batch production. Generative models emerge to make design automation scalable but it remains non-trivial to produce designs that comply with designers' multimodal desires, i.e., constrained by background images and driven by foreground content. We propose LayoutDETR that inherits the high quality and realism from generative modeling, while reformulating content-aware requirements as a detection problem: we learn to detect in a background image the reasonable locations, scales, and spatial relations for multimodal foreground elements in a layout. Our solution sets a new state-of-the-art performance for layout generation on public benchmarks and on our newly-curated ad banner dataset. We integrate our solution into a graphical system that facilitates user studies, and show that users prefer our designs over baselines by significant margins. Code, models, dataset, and demos are available at https://github.com/salesforce/LayoutDETR.
Abstract（参考訳）: グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。生成モデルは、設計の自動化をスケーラブルにするために出現するが、デザイナのマルチモーダルな欲求、すなわち背景画像によって制約され、前景コンテンツによって駆動されるデザインを作成することは、依然として容易ではない。本研究では,生成モデルから高品質かつ現実性を継承するLayoutDETRを提案するとともに,コンテンツ認識要求を検出問題として再定義し,背景画像から適切な位置,スケール,空間的関係をレイアウトで検出する。当社のソリューションでは,公開ベンチマークや新たに作成した広告バナーデータセット上でのレイアウト生成に,最先端のパフォーマンスを新たに設定しています。ユーザ学習を容易にするグラフィカルシステムにソリューションを統合することで,ユーザがベースラインよりもデザインを優先することを示す。コード、モデル、データセット、デモはhttps://github.com/salesforce/LayoutDETRで公開されている。

関連論文リスト

CreatiDesign: A Unified Multi-Conditional Diffusion Transformer for Creative Graphic Design [69.83433430133302]
CreatiDesignは、モデルアーキテクチャとデータセット構築の両方をカバーする、自動グラフィック設計のための体系的なソリューションである。まず、異種設計要素の柔軟かつ正確な統合を可能にする統合されたマルチ条件駆動アーキテクチャを設計する。さらに,各条件が指定された画像領域を正確に制御することを保証するため,マルチモーダルアテンションマスク機構を提案する。
論文参考訳（メタデータ） (2025-05-25T12:14:23Z)
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文参考訳（メタデータ） (2024-11-18T10:04:10Z)
LayoutDiT: Exploring Content-Graphic Balance in Layout Generation with Diffusion Transformer [46.67415676699221]
我々は、高品質で視覚的に魅力的なレイアウトを生成するために、コンテンツとグラフィック機能のバランスをとるフレームワークを導入する。具体的には、レイアウト生成空間に対するモデルの認識を最適化する適応係数を設計する。また、視覚領域における画像と幾何学パラメータ領域におけるレイアウトのモダリティ差を橋渡しするために、図形条件であるサリエンシ境界ボックスを導入する。
論文参考訳（メタデータ） (2024-07-21T17:58:21Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation [6.855409699832414]
PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
論文参考訳（メタデータ） (2024-04-01T08:46:35Z)
Desigen: A Pipeline for Controllable Design Template Generation [69.51563467689795]
Desigenは、背景画像と背景上のレイアウト要素を生成する自動テンプレート生成パイプラインである。背景生成過程において,サリエンシ分布を制限し,所望領域の注意重みを低減させる2つの手法を提案する。実験により、提案したパイプラインは人間の設計に匹敵する高品質なテンプレートを生成することが示された。
論文参考訳（メタデータ） (2024-03-14T04:32:28Z)
Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation [30.101562738257588]
コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。単純な検索拡張により生成品質が大幅に向上することを示す。 Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。
論文参考訳（メタデータ） (2023-11-22T18:59:53Z)
PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文参考訳（メタデータ） (2023-03-28T12:48:36Z)
The Layout Generation Algorithm of Graphic Design Based on Transformer-CVAE [8.052709336750823]
本稿では,トランスフォーマーモデルと条件変分オートエンコーダ(CVAE)をグラフィックデザインレイアウト生成タスクに実装した。これはLayoutT-CVAEと呼ばれるエンドツーエンドのグラフィックデザインレイアウト生成モデルを提案した。既存の最先端モデルと比較して、当社が生成したレイアウトは、多くのメトリクスでより良く機能します。
論文参考訳（メタデータ） (2021-10-08T13:36:02Z)
Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文参考訳（メタデータ） (2021-08-02T13:04:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。