論文の概要: TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2412.01137v1
- Date: Mon, 02 Dec 2024 05:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:25.673563
- Title: TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition
- Title(参考訳): TextSSR: シーンテキスト認識のための拡散に基づくデータ合成
- Authors: Xingsong Ye, Yongkun Du, Yunbo Tao, Zhineng Chen,
- Abstract要約: TextSSRは、シーンテキスト認識データを合成するための新しいフレームワークである。
指定された画像領域内でテキストを生成することに集中することで精度を確保する。
我々は、複雑さと現実性を備えた0.4百万のテキストインスタンスを持つアナグラムベースのTextSSR-Fデータセットを構築した。
- 参考スコア(独自算出の注目度): 7.560970003549404
- License:
- Abstract: Scene text recognition (STR) suffers from the challenges of either less realistic synthetic training data or the difficulty of collecting sufficient high-quality real-world data, limiting the effectiveness of trained STR models. Meanwhile, despite producing holistically appealing text images, diffusion-based text image generation methods struggle to generate accurate and realistic instance-level text on a large scale. To tackle this, we introduce TextSSR: a novel framework for Synthesizing Scene Text Recognition data via a diffusion-based universal text region synthesis model. It ensures accuracy by focusing on generating text within a specified image region and leveraging rich glyph and position information to create the less complex text region compared to the entire image. Furthermore, we utilize neighboring text within the region as a prompt to capture real-world font styles and layout patterns, guiding the generated text to resemble actual scenes. Finally, due to its prompt-free nature and capability for character-level synthesis, TextSSR enjoys a wonderful scalability and we construct an anagram-based TextSSR-F dataset with 0.4 million text instances with complexity and realism. Experiments show that models trained on added TextSSR-F data exhibit better accuracy compared to models trained on 4 million existing synthetic data. Moreover, its accuracy margin to models trained fully on a real-world dataset is less than 3.7%, confirming TextSSR's effectiveness and its great potential in scene text image synthesis. Our code is available at https://github.com/YesianRohn/TextSSR.
- Abstract(参考訳): シーンテキスト認識(STR)は、より現実的な合成トレーニングデータが少ないことや、十分な高品質な実世界のデータを集めることの難しさに悩まされており、訓練されたSTRモデルの有効性が制限されている。
一方,広範に魅力的なテキスト画像を生成する一方で,拡散ベースのテキスト画像生成手法では,高精度でリアルなインスタンスレベルのテキストを大規模に生成することが困難である。
そこで本研究では,拡散型ユニバーサルテキスト領域合成モデルを用いて,シーンテキスト認識データを合成するための新しいフレームワークであるTextSSRを紹介する。
指定された画像領域内でテキストを生成することに集中し、リッチなグリフと位置情報を活用して、画像全体と比較して、より複雑なテキスト領域を作成することにより、精度を確保する。
さらに、近隣のテキストを実世界のフォントスタイルやレイアウトパターンをキャプチャするためのプロンプトとして利用し、生成したテキストを実際のシーンに似せるように誘導する。
最後に、文字レベル合成の急激な性質と能力により、TextSSRは素晴らしいスケーラビリティを享受し、複雑さとリアリズムを備えた0.4百万のテキストインスタンスを持つアナグラムベースのTextSSR-Fデータセットを構築します。
実験により、追加のTextSSR-Fデータでトレーニングされたモデルは、既存の400万の合成データでトレーニングされたモデルよりも精度が良いことが示された。
さらに、実世界のデータセットで完全に訓練されたモデルに対する精度のマージンは3.7%未満であり、TextSSRの有効性とシーンテキスト画像合成における大きな可能性を確認している。
私たちのコードはhttps://github.com/YesianRohn/TextSSR.comで公開されています。
関連論文リスト
- SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - WAS: Dataset and Methods for Artistic Text Segmentation [57.61335995536524]
本稿では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。
本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。
また,大域構造に焦点を合わせるために,骨格支援ヘッドを提案する。
論文 参考訳(メタデータ) (2024-07-31T18:29:36Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Diffusion-based Blind Text Image Super-Resolution [20.91578221617732]
リアルなスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。
拡散モデルでは、現実的な画像分布をモデル化するだけでなく、テキスト分布の学習にも適している。
テキスト認識のためのテキスト拡散モデル(TDM)も提案する。
論文 参考訳(メタデータ) (2023-12-13T06:03:17Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。