論文の概要: GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering
- arxiv url: http://arxiv.org/abs/2603.15616v1
- Date: Mon, 16 Mar 2026 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.727597
- Title: GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering
- Title(参考訳): GlyphPrinter: Glyph-Accurate Visual Text Renderingのための領域群直接選好最適化
- Authors: Xincheng Shuai, Ziye Li, Henghui Ding, Dacheng Tao,
- Abstract要約: 既存の手法は、高画質のシーンテキスト画像のトレーニングによってテキストレンダリングを強化するのが一般的である。
グリフのバリエーションと過度なスタイリゼーションの限られた範囲は、グリフの精度を損なうことも多い。
我々は、明示的な報酬モデルに依存しない嗜好ベースのテキストレンダリング手法であるGlyphPrinterを提案する。
- 参考スコア(独自算出の注目度): 83.65452884616624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating accurate glyphs for visual text rendering is essential yet challenging. Existing methods typically enhance text rendering by training on a large amount of high-quality scene text images, but the limited coverage of glyph variations and excessive stylization often compromise glyph accuracy, especially for complex or out-of-domain characters. Some methods leverage reinforcement learning to alleviate this issue, yet their reward models usually depend on text recognition systems that are insensitive to fine-grained glyph errors, so images with incorrect glyphs may still receive high rewards. Inspired by Direct Preference Optimization (DPO), we propose GlyphPrinter, a preference-based text rendering method that eliminates reliance on explicit reward models. However, the standard DPO objective only models overall preference between two samples, which is insufficient for visual text rendering where glyph errors typically occur in localized regions. To address this issue, we construct the GlyphCorrector dataset with region-level glyph preference annotations and propose Region-Grouped DPO (R-GDPO), a region-based objective that optimizes inter- and intra-sample preferences over annotated regions, substantially enhancing glyph accuracy. Furthermore, we introduce Regional Reward Guidance, an inference strategy that samples from an optimal distribution with controllable glyph accuracy. Extensive experiments demonstrate that the proposed GlyphPrinter outperforms existing methods in glyph accuracy while maintaining a favorable balance between stylization and precision.
- Abstract(参考訳): ビジュアルテキストレンダリングのための正確なグリフを生成することは不可欠だが、難しい。
既存の手法は、高画質のシーンテキスト画像のトレーニングによってテキストレンダリングを強化するのが一般的であるが、グリフのバリエーションや過度なスタイリゼーションの限られた範囲がグリフの精度、特に複雑な文字やドメイン外文字の精度を損なうことがしばしばある。
この問題を緩和するために強化学習を利用する方法もあるが、その報酬モデルは通常、細かいグリフエラーに敏感なテキスト認識システムに依存しているため、不正確なグリフを持つ画像は高い報酬を受ける可能性がある。
直接選好最適化(DPO)にインスパイアされたGlyphPrinterは、明示的な報奨モデルへの依存を排除した嗜好ベースのテキストレンダリング手法である。
しかし、標準的なDPOの目的は2つのサンプル間の全体的な嗜好をモデル化するだけであり、局所的な領域でグリフエラーが発生する場合の視覚テキストレンダリングには不十分である。
この問題に対処するため、GlyphCorrectorデータセットを領域レベルのグリフ嗜好アノテーションを用いて構築し、アノテーション付き領域に対するサンプル間嗜好を最適化し、グリフ精度を大幅に向上するリージョンベース目的のリージョングループDPO(R-GDPO)を提案する。
さらに,制御可能なグリフ精度で最適な分布から抽出する推論手法であるRegional Reward Guidanceを導入する。
広汎な実験により,提案したGlyphPrinterは,スタイル化と精度のバランスを良好に保ちつつ,既存の方法よりもグリフ精度が優れていることが示された。
関連論文リスト
- PPBoost: Progressive Prompt Boosting for Text-Driven Medical Image Segmentation [56.238478239463575]
PPBoostは弱いテキスト由来の信号を強く、空間的に接地された視覚的プロンプトに変換する。
画像やピクセルレベルのセグメンテーションラベルを持たない厳格なゼロショット方式で動作する。
テキストや視覚的にプロンプトされたベースラインよりも、Diceと正規化されたSurface Distanceを一貫して改善する。
論文 参考訳(メタデータ) (2025-11-26T23:49:44Z) - UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis [38.658170067715965]
画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
論文 参考訳(メタデータ) (2025-07-01T17:42:19Z) - HDGlyph: A Hierarchical Disentangled Glyph-Based Framework for Long-Tail Text Rendering in Diffusion Models [20.543157470365315]
HDGlyphは、非テキスト視覚合成からテキスト生成を階層的に分離する新しいフレームワークである。
私たちのモデルは、英語と中国語のテキストレンダリングで5.08%と11.7%の精度で、他のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-10T07:05:43Z) - GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - GlyphControl: Glyph Conditional Control for Visual Text Generation [23.11989365761579]
我々はGlyphControlという新しい効率的な手法を提案し、コヒーレントでよく表現されたビジュアルテキストを生成する。
glyph命令を組み込むことで、ユーザーは特定の要求に応じて生成されたテキストの内容、場所、サイズをカスタマイズできる。
GlyphControlはOCR精度,CLIPスコア,FIDにおいて,最近のDeepFloyd IFアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-05-29T17:27:59Z) - Few-Shot Font Generation by Learning Fine-Grained Local Styles [90.39288370855115]
フラッシュショットフォント生成(FFG)は、いくつかの例で新しいフォントを生成することを目的としている。
提案手法は,1)参照からきめ細かな局所スタイルを学習し,2)コンテンツと参照グリフの空間的対応を学習するフォント生成手法である。
論文 参考訳(メタデータ) (2022-05-20T05:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。