論文の概要: Revisiting Scene Text Recognition: A Data Perspective
- arxiv url: http://arxiv.org/abs/2307.08723v2
- Date: Wed, 19 Jul 2023 07:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 11:10:43.487743
- Title: Revisiting Scene Text Recognition: A Data Perspective
- Title(参考訳): シーンテキスト認識の再考:データの視点から
- Authors: Qing Jiang, Jiapeng Wang, Dezhi Peng, Chongyu Liu, Lianwen Jin
- Abstract要約: 本稿では,シーンテキスト認識(STR)をデータ指向の観点から再評価することを目的とする。
我々は、400万のラベル付き画像と1000万のラベルなし画像からなる大規模な実STRデータセット、すなわちUnion14Mを統合する。
実験により, ラベル付き画像400万枚に対して平均精度66.53%しか達成できないことがわかった。
- 参考スコア(独自算出の注目度): 29.52594826718069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to re-assess scene text recognition (STR) from a
data-oriented perspective. We begin by revisiting the six commonly used
benchmarks in STR and observe a trend of performance saturation, whereby only
2.91% of the benchmark images cannot be accurately recognized by an ensemble of
13 representative models. While these results are impressive and suggest that
STR could be considered solved, however, we argue that this is primarily due to
the less challenging nature of the common benchmarks, thus concealing the
underlying issues that STR faces. To this end, we consolidate a large-scale
real STR dataset, namely Union14M, which comprises 4 million labeled images and
10 million unlabeled images, to assess the performance of STR models in more
complex real-world scenarios. Our experiments demonstrate that the 13 models
can only achieve an average accuracy of 66.53% on the 4 million labeled images,
indicating that STR still faces numerous challenges in the real world. By
analyzing the error patterns of the 13 models, we identify seven open
challenges in STR and develop a challenge-driven benchmark consisting of eight
distinct subsets to facilitate further progress in the field. Our exploration
demonstrates that STR is far from being solved and leveraging data may be a
promising solution. In this regard, we find that utilizing the 10 million
unlabeled images through self-supervised pre-training can significantly improve
the robustness of STR model in real-world scenarios and leads to
state-of-the-art performance.
- Abstract(参考訳): 本稿では,シーンテキスト認識(STR)をデータ指向の観点から再評価することを目的とする。
まずSTRでよく使われる6つのベンチマークを再検討し、パフォーマンス飽和の傾向を観察し、13の代表的なモデルのアンサンブルによってベンチマーク画像の2.91%しか正確に認識できない。
これらの結果は印象的であり、STRが解決される可能性が示唆されているが、これは主に共通のベンチマークの難易度が低いためであり、STRが直面している根本的な問題を隠蔽しているためである。
この目的のために,400万のラベル付き画像と1000万のラベルなし画像からなるUnion14Mという大規模な実STRデータセットを統合し,より複雑な実世界のシナリオにおけるSTRモデルの性能を評価する。
我々の実験では、13モデルは400万枚のラベル付き画像で平均66.53%の精度しか達成できないことが示されており、STRは現実世界で多くの課題に直面している。
13モデルの誤りパターンを解析することにより、STRのオープンな7つの課題を特定し、8つの異なるサブセットからなるチャレンジ駆動ベンチマークを開発し、この分野のさらなる進歩を促進する。
私たちの調査は、strが解決され、データを活用することが有望なソリューションであることを示している。
そこで本研究では,自己教師付き事前学習による1000万枚の未ラベル画像の利用により,実世界のシナリオにおけるSTRモデルのロバスト性が大きく向上し,最先端の性能が向上することを見出した。
関連論文リスト
- A Performance Increment Strategy for Semantic Segmentation of Low-Resolution Images from Damaged Roads [0.0]
新興国の代表的データセットは、貧弱な道路の低解像度画像で構成されている。
このシナリオでは、3つの課題が生じる: ピクセルが少ないオブジェクト、未定義の形状を持つオブジェクト、非常に不足したクラス。
これらの課題に対処するため、この研究は、パフォーマンスを高めるための14のトレーニング実験の方法論として、セマンティックのパフォーマンスインクリメント戦略(PISSS)を提案する。
論文 参考訳(メタデータ) (2024-11-25T11:27:42Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - One-Shot Learning for Periocular Recognition: Exploring the Effect of
Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。
我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。
SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文 参考訳(メタデータ) (2023-07-11T09:10:16Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - An Empirical Study on the Robustness of the Segment Anything Model (SAM) [12.128991867050487]
Segment Anything Model (SAM) は一般的な画像分割の基礎モデルである。
本研究では,多様な実環境下でSAMの包括的ロバストネス調査を行う。
実験結果からSAMの性能は摂動画像下では一般的に低下することが示された。
プロンプトのテクニックをカスタマイズし、各データセットのユニークな特徴に基づいてドメイン知識を活用することで、モデルの摂動に対するレジリエンスを向上させることができる。
論文 参考訳(メタデータ) (2023-05-10T19:06:43Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation [17.092815629040388]
我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
論文 参考訳(メタデータ) (2022-04-16T04:42:02Z) - Data Augmentation for Scene Text Recognition [19.286766429954174]
シーンテキスト認識(STR)は、自然界におけるテキストの出現の可能性が大きいため、コンピュータビジョンにおいて難しい課題である。
ほとんどのSTRモデルは、十分に大きくて一般公開された実際のデータセットがないため、トレーニングのために合成データセットに依存しています。
本稿では,STR用に設計した36個の画像拡張関数からなるSTRAugを紹介する。
論文 参考訳(メタデータ) (2021-08-16T07:53:30Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。