論文の概要: POSTA: A Go-to Framework for Customized Artistic Poster Generation
- arxiv url: http://arxiv.org/abs/2503.14908v1
- Date: Wed, 19 Mar 2025 05:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:33.641361
- Title: POSTA: A Go-to Framework for Customized Artistic Poster Generation
- Title(参考訳): POSTA: カスタマイズされたアーティスティックなポスター生成のためのGotoフレームワーク
- Authors: Haoyu Chen, Xiaojie Xu, Wenbo Li, Jingjing Ren, Tian Ye, Songhua Liu, Ying-Cong Chen, Lei Zhu, Xinchao Wang,
- Abstract要約: POSTAは、カスタマイズされた芸術ポスター生成のためのモジュラーフレームワークである。
background Diffusionはユーザ入力に基づいてテーマ付きバックグラウンドを生成する。
設計MLLMはレイアウトとタイポグラフィー要素を生成し、背景スタイルと整合し補完する。
ArtText Diffusionはキーテキスト要素にスタイリングを追加する。
- 参考スコア(独自算出の注目度): 87.16343612086959
- License:
- Abstract: Poster design is a critical medium for visual communication. Prior work has explored automatic poster design using deep learning techniques, but these approaches lack text accuracy, user customization, and aesthetic appeal, limiting their applicability in artistic domains such as movies and exhibitions, where both clear content delivery and visual impact are essential. To address these limitations, we present POSTA: a modular framework powered by diffusion models and multimodal large language models (MLLMs) for customized artistic poster generation. The framework consists of three modules. Background Diffusion creates a themed background based on user input. Design MLLM then generates layout and typography elements that align with and complement the background style. Finally, to enhance the poster's aesthetic appeal, ArtText Diffusion applies additional stylization to key text elements. The final result is a visually cohesive and appealing poster, with a fully modular process that allows for complete customization. To train our models, we develop the PosterArt dataset, comprising high-quality artistic posters annotated with layout, typography, and pixel-level stylized text segmentation. Our comprehensive experimental analysis demonstrates POSTA's exceptional controllability and design diversity, outperforming existing models in both text accuracy and aesthetic quality.
- Abstract(参考訳): ポスターデザインは視覚コミュニケーションにとって重要な媒体である。
従来の研究では、ディープラーニング技術を用いた自動ポスターデザインが検討されてきたが、これらのアプローチにはテキストの精度、ユーザカスタマイズ、美的魅力が欠如しており、コンテンツ配信と視覚的影響の両方が不可欠である映画や展覧会などの芸術分野における適用性が制限されている。
これらの制約に対処するため、POSTAは拡散モデルとマルチモーダル大言語モデル(MLLM)を利用した、カスタマイズされたポスター生成のためのモジュラーフレームワークである。
フレームワークは3つのモジュールで構成される。
background Diffusionはユーザ入力に基づいてテーマ付きバックグラウンドを生成する。
設計MLLMはレイアウトとタイポグラフィー要素を生成し、背景スタイルと整合し補完する。
最後に、ポスターの美的魅力を高めるために、ArtText Diffusionはキーテキスト要素にさらなるスタイリングを適用している。
最終的な結果は、完全なカスタマイズを可能にする、完全にモジュール化されたプロセスを備えた、視覚的に密着した魅力的なポスターである。
モデルをトレーニングするために,レイアウト,タイポグラフィ,ピクセルレベルのスタイリングテキストセグメンテーションを付加した高品質な芸術ポスターからなるPosterArtデータセットを開発した。
包括的実験分析により,POSTAの卓越した制御性と設計の多様性が示され,テキストの精度と美的品質の両方において既存モデルを上回る結果が得られた。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.152732507491591]
LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
論文 参考訳(メタデータ) (2024-07-02T13:17:49Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation [6.855409699832414]
PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。
評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。
これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
論文 参考訳(メタデータ) (2024-04-01T08:46:35Z) - WordArt Designer API: User-Driven Artistic Typography Synthesis with
Large Language Models on ModelScope [43.68826200853858]
本稿では,ModelScope上のLarge Language Models(LLMs)を利用したユーザ主導のアートタイポグラフィ合成のための新しいフレームワークであるWordArt Designer APIを紹介する。
我々は,非専門職に対する芸術的タイポグラフィーを簡素化する上で,従来の定型テンプレートに代わる動的で適応的で,計算的に効率的な代替手段を提供することによって,課題に対処する。
論文 参考訳(メタデータ) (2024-01-03T12:06:02Z) - WordArt Designer: User-Driven Artistic Typography Synthesis using Large
Language Models [43.68826200853858]
本稿では,芸術的タイポグラフィ合成のためのユーザ主導のフレームワークであるWordArt Designerを紹介する。
このシステムには、LLMエンジン、SemTypo、StyTypo、TexTypoの4つの主要なモジュールが含まれている。
特にWordArt Designerは、生成AIとアートタイポグラフィーの融合を強調している。
論文 参考訳(メタデータ) (2023-10-20T12:44:44Z) - TextPainter: Multimodal Text Image Generation with Visual-harmony and
Text-comprehension for Poster Design [50.8682912032406]
本研究では,テキスト画像を生成するための新しいマルチモーダルアプローチであるTextPainterを紹介する。
TextPainterは、グローバルなローカル背景画像をスタイルのヒントとして取り、テキスト画像生成を視覚調和でガイドする。
約80Kのポスターに文レベルのバウンディングボックスとテキストの内容が付加されたPosterT80Kデータセットを構築した。
論文 参考訳(メタデータ) (2023-08-09T06:59:29Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation [30.654807125764965]
我々は,汎用的な芸術的テクストスタイルの転送を実現するために,GenTextという新しいアプローチを提案する。
具体的には、スタイラス化、デスティル化、フォント転送という3つの異なる段階を取り入れています。
ペアの芸術的テキスト画像の取得が困難であることを考えると,本モデルは教師なし環境下で設計されている。
論文 参考訳(メタデータ) (2022-07-20T04:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。