論文の概要: Data Augmentation for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2108.06949v1
- Date: Mon, 16 Aug 2021 07:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:02:53.307120
- Title: Data Augmentation for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのデータ拡張
- Authors: Rowel Atienza
- Abstract要約: シーンテキスト認識(STR)は、自然界におけるテキストの出現の可能性が大きいため、コンピュータビジョンにおいて難しい課題である。
ほとんどのSTRモデルは、十分に大きくて一般公開された実際のデータセットがないため、トレーニングのために合成データセットに依存しています。
本稿では,STR用に設計した36個の画像拡張関数からなるSTRAugを紹介する。
- 参考スコア(独自算出の注目度): 19.286766429954174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) is a challenging task in computer vision due to
the large number of possible text appearances in natural scenes. Most STR
models rely on synthetic datasets for training since there are no sufficiently
big and publicly available labelled real datasets. Since STR models are
evaluated using real data, the mismatch between training and testing data
distributions results into poor performance of models especially on challenging
text that are affected by noise, artifacts, geometry, structure, etc. In this
paper, we introduce STRAug which is made of 36 image augmentation functions
designed for STR. Each function mimics certain text image properties that can
be found in natural scenes, caused by camera sensors, or induced by signal
processing operations but poorly represented in the training dataset. When
applied to strong baseline models using RandAugment, STRAug significantly
increases the overall absolute accuracy of STR models across regular and
irregular test datasets by as much as 2.10% on Rosetta, 1.48% on R2AM, 1.30% on
CRNN, 1.35% on RARE, 1.06% on TRBA and 0.89% on GCRNN. The diversity and
simplicity of API provided by STRAug functions enable easy replication and
validation of existing data augmentation methods for STR. STRAug is available
at https://github.com/roatienza/straug.
- Abstract(参考訳): シーンテキスト認識(STR)は、自然界におけるテキストの出現の可能性が大きいため、コンピュータビジョンにおいて難しい課題である。
ほとんどのSTRモデルは、十分に大きくて一般公開された実際のデータセットがないため、トレーニングのために合成データセットに依存しています。
STRモデルは実データを用いて評価されるため、トレーニングとテストのミスマッチは、特にノイズ、アーティファクト、幾何学、構造などの影響を受ける挑戦的なテキストに対して、モデルの低パフォーマンスをもたらす。
本稿では,STR用に設計した36個の画像拡張関数からなるSTRAugを紹介する。
それぞれの機能は、カメラセンサーによる自然なシーンや、信号処理操作によって引き起こされるが、トレーニングデータセットではあまり表現されていないテキストイメージ特性を模倣する。
RandAugmentを用いた強力なベースラインモデルに適用すると、STRAugは通常のテストデータセットと不規則なテストデータセットのSTRモデルの全体的な絶対精度を、Rosettaで最大2.10%、R2AMで1.48%、CRNNで1.30%、RAREで1.35%、TRBAで1.06%、GCRNNで0.89%向上させる。
STRAug関数が提供するAPIの多様性と単純さにより、STRの既存のデータ拡張メソッドのレプリケーションと検証が容易になる。
STRAugはhttps://github.com/roatienza/straug.comで入手できる。
関連論文リスト
- Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Geometric Perception based Efficient Text Recognition [0.0]
固定されたカメラ位置を持つ現実世界のアプリケーションでは、基礎となるデータは通常のシーンテキストであることが多い。
本稿では, 基礎となる概念, 理論, 実装, 実験結果を紹介する。
本稿では,現在ある幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別するように訓練された新しいディープラーニングアーキテクチャ(GeoTRNet)を提案する。
論文 参考訳(メタデータ) (2023-02-08T04:19:24Z) - The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis [0.76146285961466]
STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
論文 参考訳(メタデータ) (2022-10-14T03:34:21Z) - What If We Only Use Real Datasets for Scene Text Recognition? Toward
Scene Text Recognition With Fewer Labels [53.51264148594141]
シーンテキスト認識(STR)タスクは、一般的なプラクティスを持っています:すべての最先端のSTRモデルは、大規模な合成データで訓練されます。
strモデルのトレーニングは、実際のデータが不十分であるため、ほとんど不可能です。
実際のラベル付きデータだけでSTRモデルを十分にトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-07T17:05:54Z) - Learning Statistical Texture for Semantic Segmentation [53.7443670431132]
セマンティックセグメンテーションのための新しい統計テクスチャ学習ネットワーク(STLNet)を提案する。
STLNetは、初めて低レベルの情報の分布を分析し、それらをタスクに効率的に活用する。
1)テクスチャ関連情報を捕捉し,テクスチャの詳細を強化するためのテクスチャエンハンスモジュール(TEM),(2)ピラミッドテクスチャ特徴抽出モジュール(PTFEM)の2つのモジュールを導入し,複数のスケールから統計的テクスチャ特徴を効果的に抽出する。
論文 参考訳(メタデータ) (2021-03-06T15:05:35Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。