論文の概要: PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering
- arxiv url: http://arxiv.org/abs/2504.06632v1
- Date: Wed, 09 Apr 2025 07:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:25.374852
- Title: PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering
- Title(参考訳): PosterMaker: 正確なテキストレンダリングによる高品質な製品ポスター生成を目指す
- Authors: Yifan Gao, Zihang Lin, Chuanbin Liu, Min Zhou, Tiezheng Ge, Bo Zheng, Hongtao Xie,
- Abstract要約: テーマ、シーン、テキストを統合したプロダクトポスターは、顧客を引き付けるための重要なプロモーションツールである。
主な課題はテキストを正確にレンダリングすることであり、特に1万文字以上を含む中国語のような複雑な書記システムではそうである。
テキストレンダリング精度が90%を超えるTextRenderNetを開発した。
TextRenderNetとSceneGenNetをベースに、エンドツーエンド生成フレームワークであるPosterMakerを紹介します。
- 参考スコア(独自算出の注目度): 50.76106125697899
- License:
- Abstract: Product posters, which integrate subject, scene, and text, are crucial promotional tools for attracting customers. Creating such posters using modern image generation methods is valuable, while the main challenge lies in accurately rendering text, especially for complex writing systems like Chinese, which contains over 10,000 individual characters. In this work, we identify the key to precise text rendering as constructing a character-discriminative visual feature as a control signal. Based on this insight, we propose a robust character-wise representation as control and we develop TextRenderNet, which achieves a high text rendering accuracy of over 90%. Another challenge in poster generation is maintaining the fidelity of user-specific products. We address this by introducing SceneGenNet, an inpainting-based model, and propose subject fidelity feedback learning to further enhance fidelity. Based on TextRenderNet and SceneGenNet, we present PosterMaker, an end-to-end generation framework. To optimize PosterMaker efficiently, we implement a two-stage training strategy that decouples text rendering and background generation learning. Experimental results show that PosterMaker outperforms existing baselines by a remarkable margin, which demonstrates its effectiveness.
- Abstract(参考訳): テーマ、シーン、テキストを統合したプロダクトポスターは、顧客を引き付けるための重要なプロモーションツールである。
現代の画像生成手法によるポスターの作成は重要であり、特に1万文字以上の漢字を含む中国語などの複雑な筆記システムにおいて、テキストの正確なレンダリングが主な課題となっている。
本研究では,文字識別の視覚的特徴を制御信号として構築する手法として,正確なテキスト描画の鍵を同定する。
そこで本研究では,テキストレンダリングの精度を90%以上向上するTextRenderNetを開発した。
ポスター生成におけるもうひとつの課題は、ユーザ固有の製品の忠実性を維持することだ。
そこで本研究では, インペイントベースモデルであるSceneGenNetを導入し, 忠実度をさらに向上させるために, 主観的忠実度フィードバック学習を提案する。
TextRenderNetとSceneGenNetをベースに、エンドツーエンド生成フレームワークであるPosterMakerを紹介します。
PosterMakerを効率的に最適化するために、テキストレンダリングとバックグラウンド生成学習を分離する2段階のトレーニング戦略を実装した。
実験の結果、PosterMakerは既存のベースラインよりも優れたマージンを示し、その有効性を示している。
関連論文リスト
- Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。
このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。
我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-01-02T18:59:44Z) - GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.152732507491591]
LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
論文 参考訳(メタデータ) (2024-07-02T13:17:49Z) - CustomText: Customized Textual Image Generation using Diffusion Models [13.239661107392324]
テキスト画像生成は、広告、教育、製品パッケージング、ソーシャルメディア、情報視覚化、ブランディングといった様々な分野にまたがる。
拡散モデルを用いた言語誘導画像合成における最近の進歩にもかかわらず、現在のモデルは画像生成に優れ、正確なテキストレンダリングに苦慮し、フォント属性の限定的な制御を提供する。
本稿では,高精度なテキストカスタマイズによる高品質な画像合成の実現を目標とし,画像生成モデルの進歩に寄与する。
論文 参考訳(メタデータ) (2024-05-21T06:43:03Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - TextPainter: Multimodal Text Image Generation with Visual-harmony and
Text-comprehension for Poster Design [50.8682912032406]
本研究では,テキスト画像を生成するための新しいマルチモーダルアプローチであるTextPainterを紹介する。
TextPainterは、グローバルなローカル背景画像をスタイルのヒントとして取り、テキスト画像生成を視覚調和でガイドする。
約80Kのポスターに文レベルのバウンディングボックスとテキストの内容が付加されたPosterT80Kデータセットを構築した。
論文 参考訳(メタデータ) (2023-08-09T06:59:29Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - Text2Poster: Laying out Stylized Texts on Retrieved Images [32.466518932018175]
ポスター生成は広範囲のアプリケーションにとって重要なタスクであり、しばしば時間がかかり、手作業による編集や芸術的な経験を必要とする。
我々は,テキスト情報から視覚効果のあるポスターを自動的に生成する,textitText2Posterという新しいデータ駆動フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-06T04:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。