論文の概要: GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models
- arxiv url: http://arxiv.org/abs/2407.02252v2
- Date: Fri, 30 Aug 2024 12:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 19:41:40.075326
- Title: GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models
- Title(参考訳): GlyphDraw2:拡散モデルと大規模言語モデルを用いた複雑なグリフポスターの自動生成
- Authors: Jian Ma, Yonglin Deng, Chen Chen, Haonan Lu, Zhenyu Yang,
- Abstract要約: LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
- 参考スコア(独自算出の注目度): 7.5791485306093245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Posters play a crucial role in marketing and advertising by enhancing visual communication and brand visibility, making significant contributions to industrial design. With the latest advancements in controllable T2I diffusion models, increasing research has focused on rendering text within synthesized images. Despite improvements in text rendering accuracy, the field of automatic poster generation remains underexplored. In this paper, we propose an automatic poster generation framework with text rendering capabilities leveraging LLMs, utilizing a triple-cross attention mechanism based on alignment learning. This framework aims to create precise poster text within a detailed contextual background. Additionally, the framework supports controllable fonts, adjustable image resolution, and the rendering of posters with descriptions and text in both English and Chinese.Furthermore, we introduce a high-resolution font dataset and a poster dataset with resolutions exceeding 1024 pixels. Our approach leverages the SDXL architecture. Extensive experiments validate our method's capability in generating poster images with complex and contextually rich backgrounds.Codes is available at https://github.com/OPPO-Mente-Lab/GlyphDraw2.
- Abstract(参考訳): ポスターは、視覚コミュニケーションとブランドの可視性を高め、産業デザインに重要な貢献をすることで、マーケティングと広告において重要な役割を担っている。
制御可能なT2I拡散モデルの最近の進歩により、合成画像中のテキストのレンダリングに焦点が当てられている。
テキストレンダリングの精度が向上したにもかかわらず、自動ポスター生成の分野はいまだ探索されていない。
本稿では,LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
さらに、制御可能なフォント、調整可能な画像解像度、英語と中国語の両方で記述とテキストによるポスターのレンダリングをサポートし、さらに高解像度のフォントデータセットと1024ピクセルを超える解像度のポスターデータセットを導入している。
我々のアプローチはSDXLアーキテクチャを活用している。
複雑な背景とコンテキストに富んだ背景を持つポスター画像を生成する際の,我々の方法の有効性を検証する実験は,https://github.com/OPPO-Mente-Lab/GlyphDraw2.comで公開されている。
関連論文リスト
- ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Reason out Your Layout: Evoking the Layout Master from Large Language
Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。
実験により,画像の画質とレイアウト精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-28T14:51:13Z) - TextPainter: Multimodal Text Image Generation with Visual-harmony and
Text-comprehension for Poster Design [50.8682912032406]
本研究では,テキスト画像を生成するための新しいマルチモーダルアプローチであるTextPainterを紹介する。
TextPainterは、グローバルなローカル背景画像をスタイルのヒントとして取り、テキスト画像生成を視覚調和でガイドする。
約80Kのポスターに文レベルのバウンディングボックスとテキストの内容が付加されたPosterT80Kデータセットを構築した。
論文 参考訳(メタデータ) (2023-08-09T06:59:29Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Text2Poster: Laying out Stylized Texts on Retrieved Images [32.466518932018175]
ポスター生成は広範囲のアプリケーションにとって重要なタスクであり、しばしば時間がかかり、手作業による編集や芸術的な経験を必要とする。
我々は,テキスト情報から視覚効果のあるポスターを自動的に生成する,textitText2Posterという新しいデータ駆動フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-06T04:06:23Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。