論文の概要: Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation
- arxiv url: http://arxiv.org/abs/2204.07714v1
- Date: Sat, 16 Apr 2022 04:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 10:39:37.925287
- Title: Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation
- Title(参考訳): 人間アノテーションのないシーンテキスト認識装置の性能限界を押し上げる
- Authors: Caiyuan Zheng, Hui Li, Seon-Min Rhee, Seungju Han, Jae-Joon Han, Peng
Wang
- Abstract要約: 我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
- 参考スコア(独自算出の注目度): 17.092815629040388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text recognition (STR) attracts much attention over the years because
of its wide application. Most methods train STR model in a fully supervised
manner which requires large amounts of labeled data. Although synthetic data
contributes a lot to STR, it suffers from the real-tosynthetic domain gap that
restricts model performance. In this work, we aim to boost STR models by
leveraging both synthetic data and the numerous real unlabeled images,
exempting human annotation cost thoroughly. A robust consistency regularization
based semi-supervised framework is proposed for STR, which can effectively
solve the instability issue due to domain inconsistency between synthetic and
real images. A character-level consistency regularization is designed to
mitigate the misalignment between characters in sequence recognition. Extensive
experiments on standard text recognition benchmarks demonstrate the
effectiveness of the proposed method. It can steadily improve existing STR
models, and boost an STR model to achieve new state-of-the-art results. To our
best knowledge, this is the first consistency regularization based framework
that applies successfully to STR.
- Abstract(参考訳): シーンテキスト認識(STR)は、広く応用されているため、長年にわたって注目を集めてきた。
ほとんどのメソッドは、大量のラベル付きデータを必要とする完全に教師された方法でSTRモデルを訓練する。
合成データはSTRに大きく貢献するが、モデルの性能を制限する実際の合成ドメインギャップに悩まされる。
本研究では,合成データと多数の実際の未ラベル画像を活用することでSTRモデルを強化することを目的とした。
合成画像と実画像のドメイン不整合による不安定性を効果的に解決できる、堅牢な一貫性規則化に基づく半教師付きフレームワークSTRを提案する。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
標準テキスト認識ベンチマークの大規模な実験により,提案手法の有効性が示された。
既存のSTRモデルを着実に改善し、STRモデルを強化して、新しい最先端の結果を達成することができる。
私たちの知る限りでは、STRにうまく適用できる最初の一貫性の規則化ベースのフレームワークです。
関連論文リスト
- Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Multi-Granularity Prediction with Learnable Fusion for Scene Text
Recognition [20.48454415635795]
Scene Text Recognition (STR) は、コンピュータビジョンにおいて長年にわたって活発に研究されてきたトピックである。
この難題に対処するために、多くの革新的な手法が提案され、言語知識をSTRモデルに組み込むことが近年顕著なトレンドとなっている。
本研究では、視覚変換器(ViT)の最近の進歩から着想を得て、概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。
すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-07-25T04:12:50Z) - Text is Text, No Matter What: Unifying Text Recognition using Knowledge
Distillation [41.43280922432707]
私たちは、2つの最先端のSTRモデルとHTRモデルと好適に競合できる単一のモデルを目指しています。
まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。
次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文 参考訳(メタデータ) (2021-07-26T10:10:34Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - ISTR: End-to-End Instance Segmentation with Transformers [147.14073165997846]
ISTRと呼ばれるインスタンスセグメンテーショントランスフォーマーを提案します。これは、その種類の最初のエンドツーエンドフレームワークです。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
ISTRは、提案されたエンドツーエンドのメカニズムにより、近似ベースのサブオプティマティック埋め込みでも最先端のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-05-03T06:00:09Z) - What If We Only Use Real Datasets for Scene Text Recognition? Toward
Scene Text Recognition With Fewer Labels [53.51264148594141]
シーンテキスト認識(STR)タスクは、一般的なプラクティスを持っています:すべての最先端のSTRモデルは、大規模な合成データで訓練されます。
strモデルのトレーニングは、実際のデータが不十分であるため、ほとんど不可能です。
実際のラベル付きデータだけでSTRモデルを十分にトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-07T17:05:54Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。