論文の概要: TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2412.01137v2
- Date: Wed, 10 Sep 2025 07:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:51.967069
- Title: TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition
- Title(参考訳): TextSSR: シーンテキスト認識のための拡散に基づくデータ合成
- Authors: Xingsong Ye, Yongkun Du, Yunbo Tao, Zhineng Chen,
- Abstract要約: シーンテキスト認識(STR)は、現実的でない合成トレーニングデータや、十分な実世界のデータを集めることの難しさに悩まされている。
テキスト認識訓練データを合成するための新しいパイプラインであるTextSSRを紹介する。
位置グリフ強調による領域中心のテキスト生成により精度を向上する。
周囲のテキストや背景からの文脈的ヒントを用いて、スタイルや外観生成を導くことでリアリズムを維持する。
- 参考スコア(独自算出の注目度): 19.566553192778525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) suffers from challenges of either less realistic synthetic training data or the difficulty of collecting sufficient high-quality real-world data, limiting the effectiveness of trained models. Meanwhile, despite producing holistically appealing text images, diffusion-based visual text generation methods struggle to synthesize accurate and realistic instance-level text at scale. To tackle this, we introduce TextSSR: a novel pipeline for Synthesizing Scene Text Recognition training data. TextSSR targets three key synthesizing characteristics: accuracy, realism, and scalability. It achieves accuracy through a proposed region-centric text generation with position-glyph enhancement, ensuring proper character placement. It maintains realism by guiding style and appearance generation using contextual hints from surrounding text or background. This character-aware diffusion architecture enjoys precise character-level control and semantic coherence preservation, without relying on natural language prompts. Therefore, TextSSR supports large-scale generation through combinatorial text permutations. Based on these, we present TextSSR-F, a dataset of 3.55 million quality-screened text instances. Extensive experiments show that STR models trained on TextSSR-F outperform those trained on existing synthetic datasets by clear margins on common benchmarks, and further improvements are observed when mixed with real-world training data. Code is available at https://github.com/YesianRohn/TextSSR.
- Abstract(参考訳): シーンテキスト認識(STR)は、より現実的な合成トレーニングデータが少ない、あるいは十分な高品質な実世界のデータを集めることの難しさに悩まされ、訓練されたモデルの有効性が制限される。
一方,拡散に基づく視覚的テキスト生成手法では,テキスト画像の正確でリアルなインスタンスレベルのテキストを大規模に合成することは困難である。
そこで本研究では,Scene Text Recognitionトレーニングデータを合成するための新しいパイプラインであるTextSSRを紹介する。
TextSSRは、精度、リアリズム、スケーラビリティの3つの主要な合成特性をターゲットにしている。
位置グリフ強調による領域中心のテキスト生成によって精度が向上し、適切な文字配置が保証される。
周囲のテキストや背景からの文脈的ヒントを用いて、スタイルや外観生成を導くことでリアリズムを維持する。
この文字認識拡散アーキテクチャは、自然言語のプロンプトに頼ることなく、正確な文字レベル制御とセマンティックコヒーレンス保存を享受する。
そのため、TextSSRは組合せテキスト置換による大規模生成をサポートする。
これらに基づいて、355万の高品質なテキストインスタンスのデータセットであるTextSSR-Fを紹介する。
大規模な実験により、TextSSR-FでトレーニングされたSTRモデルは、一般的なベンチマークで明確なマージンで既存の合成データセットでトレーニングされたモデルよりも優れており、現実世界のトレーニングデータと混在するとさらなる改善が観察される。
コードはhttps://github.com/YesianRohn/TextSSRで入手できる。
関連論文リスト
- Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders [14.655107789528673]
本稿では,テキスト認識と共同セグメンテーションデコーダを統合した新しい拡散型SRフレームワークTADiSRを紹介する。
本研究では,高精細なフルイメージのテキストマスクを用いた高品質な画像合成のための完全なパイプラインを提案する。
提案手法は,超解像におけるテキストの可読性を大幅に向上させ,複数の評価指標にまたがって最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T05:23:10Z) - TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance [24.242452422416438]
我々は,多言語テキスト画像超解法に特化して設計された多モーダル拡散モデルであるTextSRを紹介する。
テキストの先行画像と低解像度のテキスト画像を統合することにより,本モデルが効果的に超解像過程を導出する。
TextZoom と TextVQA のデータセット上でのモデルの優れたパフォーマンスは、STISR の新しいベンチマークを設定します。
論文 参考訳(メタデータ) (2025-05-29T05:40:35Z) - SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - WAS: Dataset and Methods for Artistic Text Segmentation [57.61335995536524]
本稿では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。
本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。
また,大域構造に焦点を合わせるために,骨格支援ヘッドを提案する。
論文 参考訳(メタデータ) (2024-07-31T18:29:36Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Diffusion-based Blind Text Image Super-Resolution [20.91578221617732]
リアルなスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。
拡散モデルでは、現実的な画像分布をモデル化するだけでなく、テキスト分布の学習にも適している。
テキスト認識のためのテキスト拡散モデル(TDM)も提案する。
論文 参考訳(メタデータ) (2023-12-13T06:03:17Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。