Fugu-MT 論文翻訳(概要): PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering

論文の概要: PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering

arxiv url: http://arxiv.org/abs/2504.06632v1
Date: Wed, 09 Apr 2025 07:13:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 20:53:49.051555
Title: PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering
Title（参考訳）: PosterMaker: 正確なテキストレンダリングによる高品質な製品ポスター生成を目指す
Authors: Yifan Gao, Zihang Lin, Chuanbin Liu, Min Zhou, Tiezheng Ge, Bo Zheng, Hongtao Xie,
Abstract要約: テーマ、シーン、テキストを統合したプロダクトポスターは、顧客を引き付けるための重要なプロモーションツールである。主な課題はテキストを正確にレンダリングすることであり、特に1万文字以上を含む中国語のような複雑な書記システムではそうである。テキストレンダリング精度が90%を超えるTextRenderNetを開発した。 TextRenderNetとSceneGenNetをベースに、エンドツーエンド生成フレームワークであるPosterMakerを紹介します。
参考スコア（独自算出の注目度）: 50.76106125697899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Product posters, which integrate subject, scene, and text, are crucial promotional tools for attracting customers. Creating such posters using modern image generation methods is valuable, while the main challenge lies in accurately rendering text, especially for complex writing systems like Chinese, which contains over 10,000 individual characters. In this work, we identify the key to precise text rendering as constructing a character-discriminative visual feature as a control signal. Based on this insight, we propose a robust character-wise representation as control and we develop TextRenderNet, which achieves a high text rendering accuracy of over 90%. Another challenge in poster generation is maintaining the fidelity of user-specific products. We address this by introducing SceneGenNet, an inpainting-based model, and propose subject fidelity feedback learning to further enhance fidelity. Based on TextRenderNet and SceneGenNet, we present PosterMaker, an end-to-end generation framework. To optimize PosterMaker efficiently, we implement a two-stage training strategy that decouples text rendering and background generation learning. Experimental results show that PosterMaker outperforms existing baselines by a remarkable margin, which demonstrates its effectiveness.
Abstract（参考訳）: テーマ、シーン、テキストを統合したプロダクトポスターは、顧客を引き付けるための重要なプロモーションツールである。現代の画像生成手法によるポスターの作成は重要であり、特に1万文字以上の漢字を含む中国語などの複雑な筆記システムにおいて、テキストの正確なレンダリングが主な課題となっている。本研究では,文字識別の視覚的特徴を制御信号として構築する手法として,正確なテキスト描画の鍵を同定する。そこで本研究では,テキストレンダリングの精度を90%以上向上するTextRenderNetを開発した。ポスター生成におけるもうひとつの課題は、ユーザ固有の製品の忠実性を維持することだ。そこで本研究では, インペイントベースモデルであるSceneGenNetを導入し, 忠実度をさらに向上させるために, 主観的忠実度フィードバック学習を提案する。 TextRenderNetとSceneGenNetをベースに、エンドツーエンド生成フレームワークであるPosterMakerを紹介します。 PosterMakerを効率的に最適化するために、テキストレンダリングとバックグラウンド生成学習を分離する2段階のトレーニング戦略を実装した。実験の結果、PosterMakerは既存のベースラインよりも優れたマージンを示し、その有効性を示している。

関連論文リスト

RepText: Rendering Visual Text via Replicating [15.476598851383919]
本稿では,ユーザが指定したフォントの視覚的テキストを正確にレンダリングする機能を備えた,事前学習されたモノリンガルテキスト・画像生成モデルの強化を目的としたRepTextを提案する。具体的には、ControlNetの設定を採用し、さらに言語に依存しないグリフとレンダリングされたテキストの位置を統合して、調和したビジュアルテキストを生成する。提案手法は,既存のオープンソース手法より優れており,ネイティブな多言語クローズドソースモデルに匹敵する結果が得られる。
論文参考訳（メタデータ） (2025-04-28T12:19:53Z)
POSTA: A Go-to Framework for Customized Artistic Poster Generation [87.16343612086959]
POSTAは、カスタマイズされた芸術ポスター生成のためのモジュラーフレームワークである。 background Diffusionはユーザ入力に基づいてテーマ付きバックグラウンドを生成する。設計MLLMはレイアウトとタイポグラフィー要素を生成し、背景スタイルと整合し補完する。 ArtText Diffusionはキーテキスト要素にスタイリングを追加する。
論文参考訳（メタデータ） (2025-03-19T05:22:38Z)
DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文参考訳（メタデータ） (2025-03-03T15:22:57Z)
Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。 T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文参考訳（メタデータ） (2025-01-26T19:01:19Z)
GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.152732507491591]
LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
論文参考訳（メタデータ） (2024-07-02T13:17:49Z)
CustomText: Customized Textual Image Generation using Diffusion Models [13.239661107392324]
テキスト画像生成は、広告、教育、製品パッケージング、ソーシャルメディア、情報視覚化、ブランディングといった様々な分野にまたがる。拡散モデルを用いた言語誘導画像合成における最近の進歩にもかかわらず、現在のモデルは画像生成に優れ、正確なテキストレンダリングに苦慮し、フォント属性の限定的な制御を提供する。本稿では,高精度なテキストカスタマイズによる高品質な画像合成の実現を目標とし,画像生成モデルの進歩に寄与する。
論文参考訳（メタデータ） (2024-05-21T06:43:03Z)
TextPainter: Multimodal Text Image Generation with Visual-harmony and Text-comprehension for Poster Design [50.8682912032406]
本研究では,テキスト画像を生成するための新しいマルチモーダルアプローチであるTextPainterを紹介する。 TextPainterは、グローバルなローカル背景画像をスタイルのヒントとして取り、テキスト画像生成を視覚調和でガイドする。約80Kのポスターに文レベルのバウンディングボックスとテキストの内容が付加されたPosterT80Kデータセットを構築した。
論文参考訳（メタデータ） (2023-08-09T06:59:29Z)
TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文参考訳（メタデータ） (2023-05-18T10:16:19Z)
Text2Poster: Laying out Stylized Texts on Retrieved Images [32.466518932018175]
ポスター生成は広範囲のアプリケーションにとって重要なタスクであり、しばしば時間がかかり、手作業による編集や芸術的な経験を必要とする。我々は,テキスト情報から視覚効果のあるポスターを自動的に生成する,textitText2Posterという新しいデータ駆動フレームワークを提案する。
論文参考訳（メタデータ） (2023-01-06T04:06:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。