論文の概要: IndicSTR12: A Dataset for Indic Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2403.08007v1
- Date: Tue, 12 Mar 2024 18:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:55:11.595077
- Title: IndicSTR12: A Dataset for Indic Scene Text Recognition
- Title(参考訳): IndicSTR12: インデックスシーンテキスト認識のためのデータセット
- Authors: Harsh Lunia, Ajoy Mondal and C V Jawahar
- Abstract要約: 本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
- 参考スコア(独自算出の注目度): 33.194567434881314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The importance of Scene Text Recognition (STR) in today's increasingly
digital world cannot be overstated. Given the significance of STR, data
intensive deep learning approaches that auto-learn feature mappings have
primarily driven the development of STR solutions. Several benchmark datasets
and substantial work on deep learning models are available for Latin languages
to meet this need. On more complex, syntactically and semantically, Indian
languages spoken and read by 1.3 billion people, there is less work and
datasets available. This paper aims to address the Indian space's lack of a
comprehensive dataset by proposing the largest and most comprehensive real
dataset - IndicSTR12 - and benchmarking STR performance on 12 major Indian
languages. A few works have addressed the same issue, but to the best of our
knowledge, they focused on a small number of Indian languages. The size and
complexity of the proposed dataset are comparable to those of existing Latin
contemporaries, while its multilingualism will catalyse the development of
robust text detection and recognition models. It was created specifically for a
group of related languages with different scripts. The dataset contains over
27000 word-images gathered from various natural scenes, with over 1000
word-images for each language. Unlike previous datasets, the images cover a
broader range of realistic conditions, including blur, illumination changes,
occlusion, non-iconic texts, low resolution, perspective text etc. Along with
the new dataset, we provide a high-performing baseline on three models -
PARSeq, CRNN, and STARNet.
- Abstract(参考訳): 現在のデジタル世界におけるシーンテキスト認識(STR)の重要性は過大評価されない。
STRの重要性を考えれば、自動学習機能マッピングのためのデータ集約型ディープラーニングアプローチは、STRソリューションの開発を主導している。
このニーズを満たすために、いくつかのベンチマークデータセットとディープラーニングモデルに関する重要な作業がラテン言語で利用可能である。
より複雑で構文的に、セマンティックに、13億人の人々が話すインドの言語では、仕事やデータセットは少ない。
本稿は、インドで最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要インドの言語でSTRのパフォーマンスをベンチマークすることで、インドにおける包括的なデータセットの欠如に対処することを目的としている。
同じ問題に対処した研究はいくつかありますが、私たちの知る限りでは、少数のインドの言語に重点を置いています。
提案するデータセットのサイズと複雑さは、既存のラテン語の同時代のデータセットに匹敵するが、その多言語主義は、堅牢なテキスト検出と認識モデルの開発を触媒する。
それは、異なるスクリプトを持つ関連言語のグループのために特別に作られた。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
以前のデータセットとは異なり、画像は、ぼかし、照明変更、閉塞、非音素テキスト、低解像度、遠近法テキストなど、幅広い現実的な条件をカバーしている。
新しいデータセットとともに、PARSeq、CRNN、STARNetという3つのモデルで高いパフォーマンスのベースラインを提供します。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual
Machine Learning [19.203716881791312]
ウィキペディアベースの画像テキスト(WIT)データセットを紹介する。
witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。
WITは3倍の画像-テキストサンプル数で最大のマルチモーダルデータセットです。
論文 参考訳(メタデータ) (2021-03-02T18:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。