論文の概要: GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing
- arxiv url: http://arxiv.org/abs/2505.04915v1
- Date: Thu, 08 May 2025 03:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.73233
- Title: GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing
- Title(参考訳): GlyphMastero:高忠実なシーンテキスト編集のためのグリフエンコーダ
- Authors: Tong Wang, Ting Liu, Xiaochao Qu, Chengjing Wu, Luoqi Liu, Xiaolin Hu,
- Abstract要約: GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
- 参考スコア(独自算出の注目度): 23.64662356622401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text editing, a subfield of image editing, requires modifying texts in images while preserving style consistency and visual coherence with the surrounding environment. While diffusion-based methods have shown promise in text generation, they still struggle to produce high-quality results. These methods often generate distorted or unrecognizable characters, particularly when dealing with complex characters like Chinese. In such systems, characters are composed of intricate stroke patterns and spatial relationships that must be precisely maintained. We present GlyphMastero, a specialized glyph encoder designed to guide the latent diffusion model for generating texts with stroke-level precision. Our key insight is that existing methods, despite using pretrained OCR models for feature extraction, fail to capture the hierarchical nature of text structures - from individual strokes to stroke-level interactions to overall character-level structure. To address this, our glyph encoder explicitly models and captures the cross-level interactions between local-level individual characters and global-level text lines through our novel glyph attention module. Meanwhile, our model implements a feature pyramid network to fuse the multi-scale OCR backbone features at the global-level. Through these cross-level and multi-scale fusions, we obtain more detailed glyph-aware guidance, enabling precise control over the scene text generation process. Our method achieves an 18.02\% improvement in sentence accuracy over the state-of-the-art multi-lingual scene text editing baseline, while simultaneously reducing the text-region Fr\'echet inception distance by 53.28\%.
- Abstract(参考訳): 画像編集のサブフィールドであるシーンテキスト編集は、スタイルの一貫性と周囲環境との視覚的コヒーレンスを維持しながら、画像中のテキストを変更する必要がある。
拡散に基づく手法はテキスト生成において有望であるが、高品質な結果を生み出すのに苦戦している。
これらの方法は、特に中国語のような複雑な文字を扱う際に、歪んだり、認識不能な文字を生成することが多い。
このようなシステムでは、文字は正確に維持される必要がある複雑なストロークパターンと空間的関係から構成される。
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
我々の重要な洞察は、既存の手法は、事前訓練されたOCRモデルを用いて特徴抽出を行うが、個々のストロークからストロークレベルの相互作用、全体的な文字レベル構造に至るまで、テキスト構造の階層的な性質を捉えることができないことである。
これを解決するために、我々のグリフエンコーダは、新しいグリフアテンションモジュールを通して、ローカルレベルの個々の文字とグローバルレベルのテキストラインの間のクロスレベル相互作用を明示的にモデル化し、キャプチャする。
一方,本モデルでは,グローバルレベルでのマルチスケールOCRバックボーン機能を融合させるために,機能ピラミッドネットワークを実装している。
これらのクロスレベルおよびマルチスケール融合により、より詳細なグリフ認識ガイダンスが得られ、シーンテキスト生成プロセスの正確な制御が可能となる。
提案手法は,テキスト領域Fr'echet開始距離を53.28\%削減しつつ,最先端の多言語シーンテキスト編集ベースラインに対して18.02\%の精度向上を実現する。
関連論文リスト
- TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - Layout Agnostic Scene Text Image Synthesis with Diffusion Models [42.37340959594495]
SceneTextGenは、事前に定義されたレイアウトステージの必要性を回避するために特別に設計された、拡散ベースの新しいモデルである。
SceneTextGenの新規性は、3つの重要なコンポーネントを統合している: 詳細なタイポグラフィ特性をキャプチャする文字レベルエンコーダと、不要なテキスト生成とマイナーな文字不正確な問題に対処する文字レベルインスタンスセグメンテーションモデルと、ワードレベルスポッティングモデルである。
論文 参考訳(メタデータ) (2024-06-03T07:20:34Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。