論文の概要: PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
- arxiv url: http://arxiv.org/abs/2506.10741v1
- Date: Thu, 12 Jun 2025 14:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.778349
- Title: PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
- Title(参考訳): PosterCraft: 統一されたフレームワークで高品質な美的ポスター生成を再考する
- Authors: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu,
- Abstract要約: PosterCraftは、以前のモジュールパイプラインと厳格で定義されたレイアウトを捨てる統一されたフレームワークである。
慎重にデザインされ、カスケードされたワークフローを使用して、審美的なポスターの生成を最適化する。
PosterCraftは、レンダリング精度、レイアウトコヒーレンス、全体的な視覚的魅力において、オープンソースのベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 26.60241017305203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating aesthetic posters is more challenging than simple design images: it requires not only precise text rendering but also the seamless integration of abstract artistic content, striking layouts, and overall stylistic harmony. To address this, we propose PosterCraft, a unified framework that abandons prior modular pipelines and rigid, predefined layouts, allowing the model to freely explore coherent, visually compelling compositions. PosterCraft employs a carefully designed, cascaded workflow to optimize the generation of high-aesthetic posters: (i) large-scale text-rendering optimization on our newly introduced Text-Render-2M dataset; (ii) region-aware supervised fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via best-of-n preference optimization; and (iv) joint vision-language feedback refinement. Each stage is supported by a fully automated data-construction pipeline tailored to its specific needs, enabling robust training without complex architectural modifications. Evaluated on multiple experiments, PosterCraft significantly outperforms open-source baselines in rendering accuracy, layout coherence, and overall visual appeal-approaching the quality of SOTA commercial systems. Our code, models, and datasets can be found in the Project page: https://ephemeral182.github.io/PosterCraft
- Abstract(参考訳): 正確なテキストレンダリングだけでなく、抽象的な芸術的内容のシームレスな統合、印象的なレイアウト、全体的な様式的な調和も必要です。
これを解決するためにPosterCraftを提案する。これは、以前のモジュールパイプラインと厳密で定義されたレイアウトを捨て、モデルが一貫性のある視覚的に魅力的な構成を自由に探索できるようにする統合フレームワークである。
PosterCraftは、慎重にデザインされたカスケードワークフローを使用して、審美的なポスターの生成を最適化します。
(i)新たに導入したText-Render-2Mデータセットの大規模テキストレンダリング最適化
(二)HQ-Poster100Kの微調整を監督する地域
三 ベスト・オブ・n選好最適化による美的テキスト強化学習、及び
(4)共同視覚言語フィードバック改善。
各ステージは、そのニーズに合わせて完全に自動化されたデータ構築パイプラインによってサポートされ、複雑なアーキテクチャ変更なしに堅牢なトレーニングを可能にする。
複数の実験で評価されたPosterCraftは、レンダリング精度、レイアウトのコヒーレンス、そしてSOTA商用システムの品質に対する全体的な視覚的アピールにおいて、オープンソースのベースラインを大幅に上回っている。
私たちのコード、モデル、データセットは、プロジェクトページにある。
関連論文リスト
- CreatiPoster: Towards Editable and Controllable Multi-Layer Graphic Design Generation [13.354283356097563]
CreatiPosterは、任意の自然言語命令やアセットから編集可能な多層合成を生成するフレームワークである。
さらなる研究のために、我々は10万の多層設計の著作権フリーコーパスをリリースする。
論文 参考訳(メタデータ) (2025-06-12T16:54:39Z) - PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering [50.76106125697899]
テーマ、シーン、テキストを統合したプロダクトポスターは、顧客を引き付けるための重要なプロモーションツールである。
主な課題はテキストを正確にレンダリングすることであり、特に1万文字以上を含む中国語のような複雑な書記システムではそうである。
テキストレンダリング精度が90%を超えるTextRenderNetを開発した。
TextRenderNetとSceneGenNetをベースに、エンドツーエンド生成フレームワークであるPosterMakerを紹介します。
論文 参考訳(メタデータ) (2025-04-09T07:13:08Z) - POSTA: A Go-to Framework for Customized Artistic Poster Generation [87.16343612086959]
POSTAは、カスタマイズされた芸術ポスター生成のためのモジュラーフレームワークである。
background Diffusionはユーザ入力に基づいてテーマ付きバックグラウンドを生成する。
設計MLLMはレイアウトとタイポグラフィー要素を生成し、背景スタイルと整合し補完する。
ArtText Diffusionはキーテキスト要素にスタイリングを追加する。
論文 参考訳(メタデータ) (2025-03-19T05:22:38Z) - Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。
アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。
我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文 参考訳(メタデータ) (2025-03-15T06:58:09Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.152732507491591]
LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
論文 参考訳(メタデータ) (2024-07-02T13:17:49Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。