論文の概要: Why You Should Try the Real Data for the Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2107.13938v1
- Date: Thu, 29 Jul 2021 12:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 17:59:14.866918
- Title: Why You Should Try the Real Data for the Scene Text Recognition
- Title(参考訳): テキスト認識のための実データを試してみるべき理由
- Authors: Vladimir Loginov
- Abstract要約: 人間のラベル付き自然テキスト認識データセットが不足しているため、研究者はテキスト認識モデルのトレーニングに合成データを使うことを余儀なくされている。
我々は,このアノテーションをthet Another Mask Text Spotterのテキスト認識ヘッドアーキテクチャで使用し,SOTAの結果に匹敵する結果を得た。
本稿では,テキスト認識モデルについても紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works in the text recognition area have pushed forward the recognition
results to the new horizons. But for a long time a lack of large human-labeled
natural text recognition datasets has been forcing researchers to use synthetic
data for training text recognition models. Even though synthetic datasets are
very large (MJSynth and SynthTest, two most famous synthetic datasets, have
several million images each), their diversity could be insufficient, compared
to natural datasets like ICDAR and others. Fortunately, the recently released
text-recognition annotation for OpenImages V5 dataset has comparable with
synthetic dataset number of instances and more diverse examples. We have used
this annotation with a Text Recognition head architecture from the Yet Another
Mask Text Spotter and got comparable to the SOTA results. On some datasets we
have even outperformed previous SOTA models. In this paper we also introduce a
text recognition model. The model's code is available.
- Abstract(参考訳): テキスト認識領域における最近の研究は、認識結果をニューホライズンズに推進している。
しかし長い間、人間がラベルを付けた自然テキスト認識データセットの欠如は、研究者にテキスト認識モデルのトレーニングに合成データを使うよう強制されてきた。
合成データセットは非常に大きい(最も有名な2つの合成データセットであるMJSynthとSynthTestは、それぞれ数百万の画像を持っている)が、ICDARなどの自然データセットと比較して、その多様性は不十分である可能性がある。
幸いなことに、最近リリースされたOpenImages V5データセットのテキスト認識アノテーションは、合成データセットの数やより多様な例と同等である。
我々は,このアノテーションをthet Another Mask Text Spotterのテキスト認識ヘッドアーキテクチャで使用し,SOTAの結果に匹敵する結果を得た。
いくつかのデータセットでは、以前のSOTAモデルよりも優れています。
本稿では,テキスト認識モデルについても述べる。
モデルのコードは利用可能だ。
関連論文リスト
- The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - RusTitW: Russian Language Text Dataset for Visual Text in-the-Wild
Recognition [2.0525390080943398]
我々は,ロシア語テキスト認識のための大規模人ラベルデータセットを提案する。
また、生成過程を再現するための合成データセットとコードも公開します。
論文 参考訳(メタデータ) (2023-03-29T08:38:55Z) - A Comprehensive Gold Standard and Benchmark for Comics Text Detection
and Recognition [2.1485350418225244]
本研究は,COMICSデータセットにおけるパネルの光学的文字認識(OCR)データの改善に焦点を当てた。
我々は「COMICS Text+: Detection」と「COMICS Text+: Recognition」と呼ばれる西欧コミックの最初のテキスト検出と認識データセットを作成しました。
我々は,これらのデータセット上での最先端テキスト検出および認識モデルの性能を評価し,COMICSのテキストと比較して単語の精度と正規化編集距離を大幅に改善した。
論文 参考訳(メタデータ) (2022-12-27T12:05:23Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。