論文の概要: Relation-Aware Diffusion Model for Controllable Poster Layout Generation
- arxiv url: http://arxiv.org/abs/2306.09086v1
- Date: Thu, 15 Jun 2023 12:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 14:55:04.135431
- Title: Relation-Aware Diffusion Model for Controllable Poster Layout Generation
- Title(参考訳): 制御可能なポスターレイアウト生成のための関係認識拡散モデル
- Authors: Fengheng Li, An Liu, Wei Feng, Honghe Zhu, Yaoyu Li, Zheng Zhang,
Jingjing Lv, Xin Zhu, Junjie Shen, Zhangang Lin, Jingping Shao
- Abstract要約: ポスターレイアウトは、ポスターデザインの重要な側面である。
本研究では,レイアウト生成のための関係認識拡散モデルを提案する。
提案手法は,ユーザの制約に基づいて多様なレイアウトを生成することができる。
- 参考スコア(独自算出の注目度): 20.20093933255177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Poster layout is a crucial aspect of poster design. Prior methods primarily
focus on the correlation between visual content and graphic elements. However,
a pleasant layout should also consider the relationship between visual and
textual contents and the relationship between elements. In this study, we
introduce a relation-aware diffusion model for poster layout generation that
incorporates these two relationships in the generation process. Firstly, we
devise a visual-textual relation-aware module that aligns the visual and
textual representations across modalities, thereby enhancing the layout's
efficacy in conveying textual information. Subsequently, we propose a geometry
relation-aware module that learns the geometry relationship between elements by
comprehensively considering contextual information. Additionally, the proposed
method can generate diverse layouts based on user constraints. To advance
research in this field, we have constructed a poster layout dataset named
CGL-Dataset V2. Our proposed method outperforms state-of-the-art methods on
CGL-Dataset V2. The data and code will be available at
https://github.com/liuan0803/RADM.
- Abstract(参考訳): ポスターレイアウトはポスターデザインの重要な側面である。
従来の手法は主に視覚内容とグラフィック要素の相関に焦点を当てていた。
しかし、快適なレイアウトは、視覚コンテンツとテキストコンテンツの関係と要素間の関係も考慮すべきである。
本研究では,これら2つの関係を生成プロセスに組み込んだポスターレイアウト生成のための関係認識拡散モデルを提案する。
まず,視覚表現とテキスト表現をモダリティ間で整合させ,テキスト情報伝達におけるレイアウトの有効性を高めるビジュアル・テキスト関係認識モジュールを考案する。
次に,文脈情報を包括的に考慮し,要素間の幾何関係を学習する幾何関係認識モジュールを提案する。
さらに,ユーザ制約に基づいて多様なレイアウトを生成する手法を提案する。
この分野の研究を進めるため,我々はcgl-dataset v2というポスターレイアウトデータセットを構築した。
提案手法はcgl-dataset v2の最先端手法よりも優れている。
データとコードはhttps://github.com/liuan0803/RADMで入手できる。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language
Models [84.16541551923221]
本稿では,レイアウト生成をコード生成タスクとして扱うモデルを提案する。
3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発した。
複数のデータセット上で、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-09-18T06:35:10Z) - A Parse-Then-Place Approach for Generating Graphic Layouts from Textual
Descriptions [50.469491454128246]
我々は、図形レイアウト、すなわちテキストからラベルへのレイアウトを作成するためのガイダンスとしてテキストを使用し、設計障壁を低くすることを目的としています。
テキストからラベルへの変換は、テキストからの暗黙的、複合的、不完全な制約を考慮する必要があるため、難しい作業である。
この問題に対処するための2段階のアプローチとして,パース・セイン・プレース(parse-then-place)を提案する。
論文 参考訳(メタデータ) (2023-08-24T10:37:00Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z) - VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-13T12:20:30Z) - LAMPRET: Layout-Aware Multimodal PreTraining for Document Understanding [17.179384053140236]
文書レイアウトは構造的および視覚的(例えば。
機械学習モデルでは無視されがちですが、重要な情報です。
ブロックとドキュメント全体をモデル化する新しいレイアウト対応マルチモーダル階層フレームワーク LAMPreT を提案する。
提案したモデルを,テキストブロック充填と画像提案の2つのレイアウト認識タスクで評価する。
論文 参考訳(メタデータ) (2021-04-16T23:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。