論文の概要: UnrealText: Synthesizing Realistic Scene Text Images from the Unreal
World
- arxiv url: http://arxiv.org/abs/2003.10608v6
- Date: Tue, 18 Aug 2020 01:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:08:40.295501
- Title: UnrealText: Synthesizing Realistic Scene Text Images from the Unreal
World
- Title(参考訳): UnrealText:非現実の世界からリアルなシーンのテキストイメージを合成する
- Authors: Shangbang Long, Cong Yao
- Abstract要約: UnrealTextは、3Dグラフィックスエンジンを介してリアルな画像をレンダリングする効率的な画像合成手法である。
総合的な実験により,シーンテキストの検出と認識の両面での有効性が検証された。
我々は、将来の多言語シーンテキストの検出・認識研究のための多言語バージョンを作成する。
- 参考スコア(独自算出の注目度): 18.608641449975124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data has been a critical tool for training scene text detection and
recognition models. On the one hand, synthetic word images have proven to be a
successful substitute for real images in training scene text recognizers. On
the other hand, however, scene text detectors still heavily rely on a large
amount of manually annotated real-world images, which are expensive. In this
paper, we introduce UnrealText, an efficient image synthesis method that
renders realistic images via a 3D graphics engine. 3D synthetic engine provides
realistic appearance by rendering scene and text as a whole, and allows for
better text region proposals with access to precise scene information, e.g.
normal and even object meshes. The comprehensive experiments verify its
effectiveness on both scene text detection and recognition. We also generate a
multilingual version for future research into multilingual scene text detection
and recognition. Additionally, we re-annotate scene text recognition datasets
in a case-sensitive way and include punctuation marks for more comprehensive
evaluations. The code and the generated datasets are released at:
https://github.com/Jyouhou/UnrealText/ .
- Abstract(参考訳): 合成データはシーンテキストの検出と認識モデルを訓練するための重要なツールである。
一方,合成語画像は,テキスト認識訓練における実画像の代替として有効であることが証明されている。
しかし一方で、シーンテキスト検出装置は依然として大量の手作業による実世界の画像に依存しており、これは高価である。
本稿では,3Dグラフィックスエンジンを用いてリアルな画像をレンダリングする,効率的な画像合成手法UnrealTextを紹介する。
3d合成エンジンはシーンとテキスト全体をレンダリングすることでリアルな外観を提供し、通常のメッシュやオブジェクトメッシュといった正確なシーン情報にアクセスして、より優れたテキスト領域の提案を可能にする。
総合的な実験により,シーンテキストの検出と認識の両面での有効性が検証された。
また,多言語シーンテキストの検出と認識に関する今後の研究のための多言語バージョンも作成する。
さらに,シーンテキスト認識データセットをケースセンシティブな方法で再注釈し,より包括的な評価のために句読点を含める。
コードと生成されたデータセットは、https://github.com/jyouhou/unrealtext/。
関連論文リスト
- CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors [54.80516786370663]
FreeRealは、SDと実際のデータの相補的な強みを可能にする、実際のドメイン整合型事前トレーニングパラダイムである。
GlyphMixは、合成画像を落書きのようなユニットとして実際の画像に埋め込む。
FreeRealは、4つの公開データセットで、既存の事前トレーニングメソッドよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-12-08T15:10:55Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。