論文の概要: PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout Generation
- arxiv url: http://arxiv.org/abs/2505.07843v2
- Date: Tue, 27 May 2025 02:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.448319
- Title: PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout Generation
- Title(参考訳): PosterO: 汎用コンテンツ対応レイアウト生成における言語モデルの実現を目的としたレイアウトツリーの構築
- Authors: HsiaoYuan Hsu, Yuxin Peng,
- Abstract要約: PosterOは、不愉快な目的のためにポスターを作成するためのレイアウト中心のアプローチである。
SVG言語のツリーとしてのデータセットからのレイアウトを、普遍的な形状、設計意図のベクトル化、階層的なノード表現によって構成する。
与えられた画像に対して視覚的に魅力的なレイアウトを生成することができ、様々なベンチマークで新しい最先端のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 38.53781264480452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In poster design, content-aware layout generation is crucial for automatically arranging visual-textual elements on the given image. With limited training data, existing work focused on image-centric enhancement. However, this neglects the diversity of layouts and fails to cope with shape-variant elements or diverse design intents in generalized settings. To this end, we proposed a layout-centric approach that leverages layout knowledge implicit in large language models (LLMs) to create posters for omnifarious purposes, hence the name PosterO. Specifically, it structures layouts from datasets as trees in SVG language by universal shape, design intent vectorization, and hierarchical node representation. Then, it applies LLMs during inference to predict new layout trees by in-context learning with intent-aligned example selection. After layout trees are generated, we can seamlessly realize them into poster designs by editing the chat with LLMs. Extensive experimental results have demonstrated that PosterO can generate visually appealing layouts for given images, achieving new state-of-the-art performance across various benchmarks. To further explore PosterO's abilities under the generalized settings, we built PStylish7, the first dataset with multi-purpose posters and various-shaped elements, further offering a challenging test for advanced research.
- Abstract(参考訳): ポスターデザインでは、画像上に視覚的テキスト要素を自動的に配置するために、コンテンツ対応レイアウト生成が不可欠である。
トレーニングデータが少ないため、既存の作業はイメージ中心の強化に重点を置いている。
しかし、これはレイアウトの多様性を無視し、汎用的な設定において形状の異なる要素や多様な設計意図に対処することができない。
そこで我々は,大規模言語モデル (LLM) に暗黙的にレイアウト知識を活用するレイアウト中心のアプローチを提案し,不愉快な目的のためにポスターを作成する。
具体的には、SVG言語のツリーとしてのデータセットからのレイアウトを、普遍的な形状、設計意図のベクトル化、階層的なノード表現によって構成する。
そして、推論中にLLMを適用して、意図に整合したサンプル選択を伴うコンテキスト内学習により、新しいレイアウトツリーを予測する。
レイアウトツリーが生成されると、LLMとのチャットを編集することで、それらをポスターデザインにシームレスに実現できます。
大規模な実験結果から、PosterOは与えられた画像に対して視覚的に魅力的なレイアウトを生成でき、様々なベンチマークで新しい最先端のパフォーマンスを実現することが示されている。
汎用的な設定の下でPosterOの能力をさらに探求するため、多目的ポスターとさまざまな形の要素を備えた最初のデータセットであるPStylish7を開発しました。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation [6.855409699832414]
PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。
評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。
これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
論文 参考訳(メタデータ) (2024-04-01T08:46:35Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs [24.29890251913182]
与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。