論文の概要: GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models
- arxiv url: http://arxiv.org/abs/2407.02252v1
- Date: Tue, 2 Jul 2024 13:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:25:45.130974
- Title: GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models
- Title(参考訳): GlyphDraw2:拡散モデルと大規模言語モデルを用いた複雑なグリフポスターの自動生成
- Authors: Jian Ma, Yonglin Deng, Chen Chen, Haonan Lu, Zhenyu Yang,
- Abstract要約: ポスターはマーケティングと広告において重要な役割を担い、工業デザインに大きく貢献している。
テキストレンダリングの精度が向上したにもかかわらず、エンドツーエンドのポスター生成の分野は未解明のままである。
本稿では,整列学習に根ざした3つのクロスアテンション機構を用いたエンドツーエンドテキストレンダリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.5791485306093245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Posters play a crucial role in marketing and advertising, contributing significantly to industrial design by enhancing visual communication and brand visibility. With recent advances in controllable text-to-image diffusion models, more concise research is now focusing on rendering text within synthetic images. Despite improvements in text rendering accuracy, the field of end-to-end poster generation remains underexplored. This complex task involves striking a balance between text rendering accuracy and automated layout to produce high-resolution images with variable aspect ratios. To tackle this challenge, we propose an end-to-end text rendering framework employing a triple cross-attention mechanism rooted in align learning, designed to create precise poster text within detailed contextual backgrounds. Additionally, we introduce a high-resolution dataset that exceeds 1024 pixels in image resolution. Our approach leverages the SDXL architecture. Extensive experiments validate the ability of our method to generate poster images featuring intricate and contextually rich backgrounds. Codes will be available at https://github.com/OPPO-Mente-Lab/GlyphDraw2.
- Abstract(参考訳): ポスターはマーケティングと広告において重要な役割を担い、視覚コミュニケーションとブランドの可視性を高めることで産業デザインに大きく貢献する。
近年の制御可能なテキスト・画像拡散モデルの発展に伴い、より簡潔な研究は合成画像中のテキストのレンダリングに焦点を当てている。
テキストレンダリングの精度が向上したにもかかわらず、エンドツーエンドのポスター生成の分野はいまだ探索されていない。
この複雑なタスクは、テキストのレンダリング精度と自動レイアウトのバランスを保ち、様々なアスペクト比の高解像度画像を生成する。
この課題に対処するために,協調学習に根ざした3つのクロスアテンション機構を用いたエンドツーエンドテキストレンダリングフレームワークを提案する。
さらに,画像解像度が1024ピクセルを超える高解像度データセットを導入する。
我々のアプローチはSDXLアーキテクチャを活用している。
広範にわたる実験により,複雑な背景と文脈に富んだ背景を特徴とするポスター画像を生成する方法の有効性が検証された。
コードはhttps://github.com/OPPO-Mente-Lab/GlyphDraw2.comから入手できる。
関連論文リスト
- ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Refining Text-to-Image Generation: Towards Accurate Training-Free Glyph-Enhanced Image Generation [5.55027585813848]
視覚テキストを生成する能力は重要であり、学術的関心と幅広い実践的応用の両方を提供する。
我々はLenCom-Evalというベンチマークを導入し、Lengthy と Complex Visual Text を用いて画像を生成するモデルの性能をテストする。
ここでは,CLIPSスコア,OCR精度,リコール,F1スコア,精度,距離スコアの編集など,様々な評価指標に対する顕著な改善点を示す。
論文 参考訳(メタデータ) (2024-03-25T04:54:49Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Reason out Your Layout: Evoking the Layout Master from Large Language
Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。
実験により,画像の画質とレイアウト精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-28T14:51:13Z) - TextPainter: Multimodal Text Image Generation with Visual-harmony and
Text-comprehension for Poster Design [50.8682912032406]
本研究では,テキスト画像を生成するための新しいマルチモーダルアプローチであるTextPainterを紹介する。
TextPainterは、グローバルなローカル背景画像をスタイルのヒントとして取り、テキスト画像生成を視覚調和でガイドする。
約80Kのポスターに文レベルのバウンディングボックスとテキストの内容が付加されたPosterT80Kデータセットを構築した。
論文 参考訳(メタデータ) (2023-08-09T06:59:29Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Text2Poster: Laying out Stylized Texts on Retrieved Images [32.466518932018175]
ポスター生成は広範囲のアプリケーションにとって重要なタスクであり、しばしば時間がかかり、手作業による編集や芸術的な経験を必要とする。
我々は,テキスト情報から視覚効果のあるポスターを自動的に生成する,textitText2Posterという新しいデータ駆動フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-06T04:06:23Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。