論文の概要: Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
- arxiv url: http://arxiv.org/abs/2403.09622v2
- Date: Fri, 12 Jul 2024 16:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 05:07:34.763489
- Title: Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
- Title(参考訳): Glyph-ByT5: 正確なビジュアルテキストレンダリングのためのカスタマイズされたテキストエンコーダ
- Authors: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan,
- Abstract要約: ビジュアルテキストレンダリングは、テキストから画像生成モデルにとって根本的な課題である。
文字認識のBYT5エンコーダを微調整することで、一連のカスタマイズされたテキストエンコーダ、Glyph-ByT5を作成します。
本稿では,Glyph-ByT5をSDXLに統合する方法を提案する。
- 参考スコア(独自算出の注目度): 59.088036977605405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual text rendering poses a fundamental challenge for contemporary text-to-image generation models, with the core problem lying in text encoder deficiencies. To achieve accurate text rendering, we identify two crucial requirements for text encoders: character awareness and alignment with glyphs. Our solution involves crafting a series of customized text encoder, Glyph-ByT5, by fine-tuning the character-aware ByT5 encoder using a meticulously curated paired glyph-text dataset. We present an effective method for integrating Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for design image generation. This significantly enhances text rendering accuracy, improving it from less than $20\%$ to nearly $90\%$ on our design image benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph rendering, achieving high spelling accuracy for tens to hundreds of characters with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with a small set of high-quality, photorealistic images featuring visual text, we showcase a substantial improvement in scene text rendering capabilities in open-domain real images. These compelling outcomes aim to encourage further exploration in designing customized text encoders for diverse and challenging tasks.
- Abstract(参考訳): ビジュアルテキストレンダリングは、テキストエンコーダの欠陥が中心的な問題となっている現代テキスト・画像生成モデルにおいて、根本的な課題となっている。
正確なテキストレンダリングを実現するために,文字認識とグリフとのアライメントという,テキストエンコーダの2つの重要な要件を特定した。
我々のソリューションは、微妙にキュレートされたグリフテキストデータセットを使用して文字認識のBYT5エンコーダを微調整することで、一連のカスタマイズされたテキストエンコーダ、Glyph-ByT5を作成することである。
本稿では,Glyph-ByT5をSDXLに統合する方法を提案する。
これにより、テキストレンダリングの精度が大幅に向上し、デザインイメージベンチマークで20セント未満から90セント近くに改善します。
注目すべきは、Glyph-SDXLの新しいテキスト段落レンダリング機能で、自動的な複数行レイアウトを持つ数十から数百文字のスペル精度を実現することである。
最後に,Glyph-SDXLの微調整により,オープンドメイン実画像におけるシーンテキストレンダリング機能を大幅に向上させることを示す。
これらの魅力的な成果は、多様で困難なタスクのためにカスタマイズされたテキストエンコーダを設計する際のさらなる調査を促進することを目的としている。
関連論文リスト
- GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.5791485306093245]
ポスターはマーケティングと広告において重要な役割を担い、工業デザインに大きく貢献している。
テキストレンダリングの精度が向上したにもかかわらず、エンドツーエンドのポスター生成の分野は未解明のままである。
本稿では,整列学習に根ざした3つのクロスアテンション機構を用いたエンドツーエンドテキストレンダリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-02T13:17:49Z) - Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering [46.259028433965796]
Glyph-ByT5はグラフィックデザイン画像における高精度な視覚テキストレンダリング性能を実現している。
現在でも英語のみに特化しており、視覚的魅力の面では比較的貧弱である。
Glyph-ByT5-v2 と Glyph-SDXL-v2 は 10 言語で正確なビジュアルテキストレンダリングをサポートする。
論文 参考訳(メタデータ) (2024-06-14T17:44:09Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - GlyphControl: Glyph Conditional Control for Visual Text Generation [23.11989365761579]
我々はGlyphControlという新しい効率的な手法を提案し、コヒーレントでよく表現されたビジュアルテキストを生成する。
glyph命令を組み込むことで、ユーザーは特定の要求に応じて生成されたテキストの内容、場所、サイズをカスタマイズできる。
GlyphControlはOCR精度,CLIPスコア,FIDにおいて,最近のDeepFloyd IFアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-05-29T17:27:59Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。