論文の概要: UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis
- arxiv url: http://arxiv.org/abs/2507.00992v2
- Date: Wed, 02 Jul 2025 04:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.763835
- Title: UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis
- Title(参考訳): UniGlyph: 精密ビジュアルテキスト合成のための統一セグメンテーション・コンディション拡散
- Authors: Yuanrui Wang, Cong Han, Yafei Li, Zhipeng Jin, Xiawei Li, SiNan Du, Wen Tao, Yi Yang, Shuanglong Li, Chun Yuan, Liu Lin,
- Abstract要約: 画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
- 参考スコア(独自算出の注目度): 38.658170067715965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation has greatly advanced content creation, yet accurately rendering visual text remains a key challenge due to blurred glyphs, semantic drift, and limited style control. Existing methods often rely on pre-rendered glyph images as conditions, but these struggle to retain original font styles and color cues, necessitating complex multi-branch designs that increase model overhead and reduce flexibility. To address these issues, we propose a segmentation-guided framework that uses pixel-level visual text masks -- rich in glyph shape, color, and spatial detail -- as unified conditional inputs. Our method introduces two core components: (1) a fine-tuned bilingual segmentation model for precise text mask extraction, and (2) a streamlined diffusion model augmented with adaptive glyph conditioning and a region-specific loss to preserve textual fidelity in both content and style. Our approach achieves state-of-the-art performance on the AnyText benchmark, significantly surpassing prior methods in both Chinese and English settings. To enable more rigorous evaluation, we also introduce two new benchmarks: GlyphMM-benchmark for testing layout and glyph consistency in complex typesetting, and MiniText-benchmark for assessing generation quality in small-scale text regions. Experimental results show that our model outperforms existing methods by a large margin in both scenarios, particularly excelling at small text rendering and complex layout preservation, validating its strong generalization and deployment readiness.
- Abstract(参考訳): テキスト・ツー・イメージ生成はコンテンツ生成が大幅に進歩するが、曖昧なグリフやセマンティック・ドリフト、限定的なスタイル制御など、視覚テキストの正確なレンダリングは依然として重要な課題である。
既存の手法では、プレレンダリングされたグリフのイメージを条件として利用することが多いが、これらはオリジナルのフォントスタイルやカラーキューを維持するのに苦労し、モデルのオーバーヘッドを増大させ柔軟性を低下させる複雑なマルチブランチ設計を必要とする。
これらの問題に対処するため、我々は、グリフ形状、色、空間的詳細に富んだピクセルレベルの視覚テキストマスクを統一された条件入力として使用するセグメンテーション誘導フレームワークを提案する。
本手法では,(1)高精度なテキストマスク抽出のための微調整バイリンガル分割モデル,(2)適応的なグリフ条件付き拡散モデル,およびコンテンツとスタイルの両面においてテキストの忠実さを維持するための領域特異的な損失の2つのコアコンポーネントを紹介する。
提案手法は,AnyTextベンチマークの最先端性能を実現し,中国語と英語の両方で従来手法をはるかに上回っている。
より厳密な評価を可能にするために,レイアウトテストのためのGlyphMM-benchmark,複雑な型付けにおけるグリフ一貫性テストのためのGlyphMM-benchmark,小規模テキスト領域における生成品質評価のためのMiniText-benchmarkという2つの新しいベンチマークも導入した。
実験の結果,本モデルは両シナリオとも既存の手法よりも優れており,特にテキストのレンダリングや複雑なレイアウトの保存に優れており,その強力な一般化と展開の即応性が検証されている。
関連論文リスト
- GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - RepText: Rendering Visual Text via Replicating [15.476598851383919]
本稿では,ユーザが指定したフォントの視覚的テキストを正確にレンダリングする機能を備えた,事前学習されたモノリンガルテキスト・画像生成モデルの強化を目的としたRepTextを提案する。
具体的には、ControlNetの設定を採用し、さらに言語に依存しないグリフとレンダリングされたテキストの位置を統合して、調和したビジュアルテキストを生成する。
提案手法は,既存のオープンソース手法より優れており,ネイティブな多言語クローズドソースモデルに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-04-28T12:19:53Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。