論文の概要: HDGlyph: A Hierarchical Disentangled Glyph-Based Framework for Long-Tail Text Rendering in Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.06543v1
- Date: Sat, 10 May 2025 07:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.899266
- Title: HDGlyph: A Hierarchical Disentangled Glyph-Based Framework for Long-Tail Text Rendering in Diffusion Models
- Title(参考訳): HDGlyph:拡散モデルにおける長軸テキストレンダリングのための階層的アンタングルグリフベースフレームワーク
- Authors: Shuhan Zhuang, Mengqi Huang, Fengyi Fu, Nan Chen, Bohan Lei, Zhendong Mao,
- Abstract要約: HDGlyphは、非テキスト視覚合成からテキスト生成を階層的に分離する新しいフレームワークである。
私たちのモデルは、英語と中国語のテキストレンダリングで5.08%と11.7%の精度で、他のモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 20.543157470365315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual text rendering, which aims to accurately integrate specified textual content within generated images, is critical for various applications such as commercial design. Despite recent advances, current methods struggle with long-tail text cases, particularly when handling unseen or small-sized text. In this work, we propose a novel Hierarchical Disentangled Glyph-Based framework (HDGlyph) that hierarchically decouples text generation from non-text visual synthesis, enabling joint optimization of both common and long-tail text rendering. At the training stage, HDGlyph disentangles pixel-level representations via the Multi-Linguistic GlyphNet and the Glyph-Aware Perceptual Loss, ensuring robust rendering even for unseen characters. At inference time, HDGlyph applies Noise-Disentangled Classifier-Free Guidance and Latent-Disentangled Two-Stage Rendering (LD-TSR) scheme, which refines both background and small-sized text. Extensive evaluations show our model consistently outperforms others, with 5.08% and 11.7% accuracy gains in English and Chinese text rendering while maintaining high image quality. It also excels in long-tail scenarios with strong accuracy and visual performance.
- Abstract(参考訳): ビジュアルテキストレンダリングは、特定のテキストコンテンツを生成画像に正確に統合することを目的としており、商業設計のような様々なアプリケーションにとって重要である。
最近の進歩にもかかわらず、現在の手法は、特に目に見えないテキストや小さなテキストを扱う場合に、長い尾のテキストケースに苦しむ。
本研究では,非テキスト視覚合成からテキスト生成を階層的に切り離し,共通テキストと長テールテキストのレンダリングを併用して最適化する,階層的不整形グリフベースフレームワーク(HDGlyph)を提案する。
トレーニング段階では、HDGlyphはマルチLinguistic GlyphNetとGlyph-Aware Perceptual Lossを通じてピクセルレベルの表現をアンタングルし、未知の文字に対しても堅牢なレンダリングを保証する。
推測時にHDGlyphは、背景と小型のテキストを洗練するノイズ・ディケンタングルド・クラシファイア・フリー・ガイダンスとレイト・ディケンタングルド・ツー・ステージ・レンダリング(LD-TSR)方式を適用している。
画像の品質を維持しつつ、英語と中国語のテキストレンダリングでは5.08%と11.7%の精度で、我々のモデルは一貫して他より優れています。
また、高い精度と視覚的パフォーマンスのロングテールシナリオも優れている。
関連論文リスト
- Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering [59.088036977605405]
ビジュアルテキストレンダリングは、テキストから画像生成モデルにとって根本的な課題である。
文字認識のBYT5エンコーダを微調整することで、一連のカスタマイズされたテキストエンコーダ、Glyph-ByT5を作成します。
本稿では,Glyph-ByT5をSDXLに統合する方法を提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:33Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [62.81033771780328]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。