Fugu-MT 論文翻訳(概要): Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

論文の概要: Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

arxiv url: http://arxiv.org/abs/2403.09622v2
Date: Fri, 12 Jul 2024 16:39:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 05:07:34.763489
Title: Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
Title（参考訳）: Glyph-ByT5: 正確なビジュアルテキストレンダリングのためのカスタマイズされたテキストエンコーダ
Authors: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan,
Abstract要約: ビジュアルテキストレンダリングは、テキストから画像生成モデルにとって根本的な課題である。文字認識のBYT5エンコーダを微調整することで、一連のカスタマイズされたテキストエンコーダ、Glyph-ByT5を作成します。本稿では,Glyph-ByT5をSDXLに統合する方法を提案する。
参考スコア（独自算出の注目度）: 59.088036977605405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual text rendering poses a fundamental challenge for contemporary text-to-image generation models, with the core problem lying in text encoder deficiencies. To achieve accurate text rendering, we identify two crucial requirements for text encoders: character awareness and alignment with glyphs. Our solution involves crafting a series of customized text encoder, Glyph-ByT5, by fine-tuning the character-aware ByT5 encoder using a meticulously curated paired glyph-text dataset. We present an effective method for integrating Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for design image generation. This significantly enhances text rendering accuracy, improving it from less than $20\%$ to nearly $90\%$ on our design image benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph rendering, achieving high spelling accuracy for tens to hundreds of characters with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with a small set of high-quality, photorealistic images featuring visual text, we showcase a substantial improvement in scene text rendering capabilities in open-domain real images. These compelling outcomes aim to encourage further exploration in designing customized text encoders for diverse and challenging tasks.
Abstract（参考訳）: ビジュアルテキストレンダリングは、テキストエンコーダの欠陥が中心的な問題となっている現代テキスト・画像生成モデルにおいて、根本的な課題となっている。正確なテキストレンダリングを実現するために,文字認識とグリフとのアライメントという,テキストエンコーダの2つの重要な要件を特定した。我々のソリューションは、微妙にキュレートされたグリフテキストデータセットを使用して文字認識のBYT5エンコーダを微調整することで、一連のカスタマイズされたテキストエンコーダ、Glyph-ByT5を作成することである。本稿では,Glyph-ByT5をSDXLに統合する方法を提案する。これにより、テキストレンダリングの精度が大幅に向上し、デザインイメージベンチマークで20セント未満から90セント近くに改善します。注目すべきは、Glyph-SDXLの新しいテキスト段落レンダリング機能で、自動的な複数行レイアウトを持つ数十から数百文字のスペル精度を実現することである。最後に,Glyph-SDXLの微調整により,オープンドメイン実画像におけるシーンテキストレンダリング機能を大幅に向上させることを示す。これらの魅力的な成果は、多様で困難なタスクのためにカスタマイズされたテキストエンコーダを設計する際のさらなる調査を促進することを目的としている。

関連論文リスト

TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文参考訳（メタデータ） (2025-12-10T06:18:30Z)
HDGlyph: A Hierarchical Disentangled Glyph-Based Framework for Long-Tail Text Rendering in Diffusion Models [20.543157470365315]
HDGlyphは、非テキスト視覚合成からテキスト生成を階層的に分離する新しいフレームワークである。私たちのモデルは、英語と中国語のテキストレンダリングで5.08%と11.7%の精度で、他のモデルよりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-10T07:05:43Z)
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文参考訳（メタデータ） (2025-01-06T12:09:08Z)
CharGen: High Accurate Character-Level Visual Text Generation Model with MultiModal Encoder [21.851105023801562]
CharGenは、非常に正確な文字レベルのビジュアルテキスト生成と編集モデルである。文字レベルのマルチモーダルエンコーダを使用し、文字レベルの埋め込みを抽出するだけでなく、グリフ画像の文字を文字単位でエンコードする。 CharGenはテキストレンダリングの精度を大幅に改善し、AnyText-benchmarkやMARIO-Evalといった公開ベンチマークにおける最近の手法よりも優れています。
論文参考訳（メタデータ） (2024-12-23T02:40:07Z)
Type-R: Automatically Retouching Typos for Text-to-Image Generation [14.904165023640854]
後処理パイプラインにおける誤ったテキストレンダリングの修正を提案する。提案手法はType-Rと呼ばれ,生成した画像のタイポグラフィ的誤りを識別し,誤りテキストを消去し,失語のためのテキストボックスを再生し,最後にレンダリングされた単語のタイポスを補正する。
論文参考訳（メタデータ） (2024-11-27T09:11:45Z)
First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文参考訳（メタデータ） (2024-10-14T05:23:43Z)
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering [46.259028433965796]
Glyph-ByT5はグラフィックデザイン画像における高精度な視覚テキストレンダリング性能を実現している。現在でも英語のみに特化しており、視覚的魅力の面では比較的貧弱である。 Glyph-ByT5-v2 と Glyph-SDXL-v2 は 10 言語で正確なビジュアルテキストレンダリングをサポートする。
論文参考訳（メタデータ） (2024-06-14T17:44:09Z)
Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文参考訳（メタデータ） (2023-11-27T09:39:45Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。 AnyTextは複数の言語で文字を書くことができます。我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文参考訳（メタデータ） (2023-11-06T12:10:43Z)
GlyphControl: Glyph Conditional Control for Visual Text Generation [23.11989365761579]
我々はGlyphControlという新しい効率的な手法を提案し、コヒーレントでよく表現されたビジュアルテキストを生成する。 glyph命令を組み込むことで、ユーザーは特定の要求に応じて生成されたテキストの内容、場所、サイズをカスタマイズできる。 GlyphControlはOCR精度,CLIPスコア,FIDにおいて,最近のDeepFloyd IFアプローチよりも優れていた。
論文参考訳（メタデータ） (2023-05-29T17:27:59Z)
TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文参考訳（メタデータ） (2023-05-18T10:16:19Z)
GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-04-25T02:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。