論文の概要: Traditional Chinese Synthetic Datasets Verified with Labeled Data for
Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2111.13327v1
- Date: Fri, 26 Nov 2021 06:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:40:18.050546
- Title: Traditional Chinese Synthetic Datasets Verified with Labeled Data for
Scene Text Recognition
- Title(参考訳): テキスト認識のためのラベル付きデータで検証された中国の伝統的な合成データセット
- Authors: Yi-Chang Chen, Yu-Chuan Chang, Yen-Cheng Chang and Yi-Ren Yeh
- Abstract要約: 本稿では,テキスト認識モデルの性能向上を目的とした,中国古来の合成データエンジンの枠組みを提案する。
私たちは2000万以上の合成データを生成し、7000以上の手動ラベル付きデータTC-STR 7kをベンチマークとして収集しました。
実験結果から, テキスト認識モデルは, 生成した合成データからスクラッチからトレーニングするか, TC-STR 7kワードでさらに微調整することで, 精度が向上することが示された。
- 参考スコア(独自算出の注目度): 1.6861004263551442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) has been widely studied in academia and
industry. Training a text recognition model often requires a large amount of
labeled data, but data labeling can be difficult, expensive, or time-consuming,
especially for Traditional Chinese text recognition. To the best of our
knowledge, public datasets for Traditional Chinese text recognition are
lacking. This paper presents a framework for a Traditional Chinese synthetic
data engine which aims to improve text recognition model performance. We
generated over 20 million synthetic data and collected over 7,000 manually
labeled data TC-STR 7k-word as the benchmark. Experimental results show that a
text recognition model can achieve much better accuracy either by training from
scratch with our generated synthetic data or by further fine-tuning with TC-STR
7k-word.
- Abstract(参考訳): Scene Text Recognition (STR) は学術や産業で広く研究されている。
テキスト認識モデルのトレーニングは、しばしば大量のラベル付きデータを必要とするが、特に伝統的な中国語のテキスト認識では、データラベリングは困難、高価、時間を要することがある。
我々の知る限りでは、伝統的な中国語のテキスト認識のための公開データセットは欠落している。
本稿では,テキスト認識モデルの性能向上を目的とした,中国古来の合成データエンジンの枠組みを提案する。
私たちは2000万以上の合成データを生成し、7000以上の手動ラベル付きデータTC-STR 7kをベンチマークとして収集しました。
実験結果から, テキスト認識モデルは, 生成した合成データからスクラッチからトレーニングするか, TC-STR 7kワードでさらに微調整することで, 精度が向上することが示された。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - RusTitW: Russian Language Text Dataset for Visual Text in-the-Wild
Recognition [2.0525390080943398]
我々は,ロシア語テキスト認識のための大規模人ラベルデータセットを提案する。
また、生成過程を再現するための合成データセットとコードも公開します。
論文 参考訳(メタデータ) (2023-03-29T08:38:55Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Benchmarking Chinese Text Recognition: Datasets, Baselines, and an
Empirical Study [25.609450020149637]
既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。
公開のコンペ、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、それらをシーン、Web、ドキュメント、手書きデータセットの4つのカテゴリに分けます。
実験結果を解析することにより、中国語のシナリオにおいて、英語のテキストを認識するための最先端のベースラインがうまく機能しないことを驚くほど観察する。
論文 参考訳(メタデータ) (2021-12-30T15:30:52Z) - Why You Should Try the Real Data for the Scene Text Recognition [0.0]
人間のラベル付き自然テキスト認識データセットが不足しているため、研究者はテキスト認識モデルのトレーニングに合成データを使うことを余儀なくされている。
我々は,このアノテーションをthet Another Mask Text Spotterのテキスト認識ヘッドアーキテクチャで使用し,SOTAの結果に匹敵する結果を得た。
本稿では,テキスト認識モデルについても紹介する。
論文 参考訳(メタデータ) (2021-07-29T12:58:57Z) - Robust End-to-End Offline Chinese Handwriting Text Page Spotter with
Text Kernel [4.028854207195064]
我々は、堅牢なエンドツーエンドの中国語テキストページスポッターフレームワークを提案する。
テキスト検出とテキスト認識をテキストカーネルと統合する。
提案手法は,CASIA-HWDB2.0-2.2データセットとICDAR-2013コンペティションデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2021-07-04T05:42:04Z) - What If We Only Use Real Datasets for Scene Text Recognition? Toward
Scene Text Recognition With Fewer Labels [53.51264148594141]
シーンテキスト認識(STR)タスクは、一般的なプラクティスを持っています:すべての最先端のSTRモデルは、大規模な合成データで訓練されます。
strモデルのトレーニングは、実際のデータが不十分であるため、ほとんど不可能です。
実際のラベル付きデータだけでSTRモデルを十分にトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-07T17:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。