論文の概要: Bharat Scene Text: A Novel Comprehensive Dataset and Benchmark for Indian Language Scene Text Understanding
- arxiv url: http://arxiv.org/abs/2511.23071v1
- Date: Fri, 28 Nov 2025 10:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.864391
- Title: Bharat Scene Text: A Novel Comprehensive Dataset and Benchmark for Indian Language Scene Text Understanding
- Title(参考訳): Bharat Scene Text:インド語シーンテキスト理解のための新しい包括的データセットとベンチマーク
- Authors: Anik De, Abhirama Subramanyam Penamakuri, Rajeev Yadav, Aditya Rathore, Harshiv Shah, Devesh Sharma, Sagar Agarwal, Pravin Kumar, Anand Mishra,
- Abstract要約: Bharat Scene Text datasetは、インドの言語シーンテキスト認識を研究するための総合的なベンチマークである。
インドの11の言語と英語にまたがる100万語以上の単語で構成されており、インドの様々な言語領域で撮影された6500以上の風景画像から来ている。
Scene Text Detection、Script Identification、Cropped Word Recognition、End-to-End Scene Text Recognitionなど、複数のシーンテキストタスクをサポートする。
- 参考スコア(独自算出の注目度): 3.40492636281753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reading scene text, that is, text appearing in images, has numerous application areas, including assistive technology, search, and e-commerce. Although scene text recognition in English has advanced significantly and is often considered nearly a solved problem, Indian language scene text recognition remains an open challenge. This is due to script diversity, non-standard fonts, and varying writing styles, and, more importantly, the lack of high-quality datasets and open-source models. To address these gaps, we introduce the Bharat Scene Text Dataset (BSTD) - a large-scale and comprehensive benchmark for studying Indian Language Scene Text Recognition. It comprises more than 100K words that span 11 Indian languages and English, sourced from over 6,500 scene images captured across various linguistic regions of India. The dataset is meticulously annotated and supports multiple scene text tasks, including: (i) Scene Text Detection, (ii) Script Identification, (iii) Cropped Word Recognition, and (iv) End-to-End Scene Text Recognition. We evaluated state-of-the-art models originally developed for English by adapting (fine-tuning) them for Indian languages. Our results highlight the challenges and opportunities in Indian language scene text recognition. We believe that this dataset represents a significant step toward advancing research in this domain. All our models and data are open source.
- Abstract(参考訳): シーンテキストを読む、すなわち画像に現れるテキストは、補助技術、検索、eコマースなど、多くの応用分野を持っている。
英語のシーンテキスト認識は著しく進歩しており、ほぼ解決された問題とみなされることが多いが、インド語のシーンテキスト認識は依然としてオープンな課題である。
これは、スクリプトの多様性、非標準フォント、様々な書き込みスタイル、さらに重要なのは、高品質なデータセットとオープンソースモデルの欠如によるものである。
これらのギャップに対処するため,インド語シーンテキスト認識研究のための大規模かつ包括的なベンチマークであるBSTD(Bharat Scene Text Dataset)を紹介した。
インドの11の言語と英語にまたがる100万語以上の単語で構成されており、インドの様々な言語領域で撮影された6500以上の風景画像から来ている。
データセットは細心の注意を払って注釈付けされ、複数のシーンテキストタスクをサポートする。
(i)シーンテキスト検出
(ii)スクリプト識別
(三)区切り語認識、及び
(4)エンド・ツー・エンドのシーンテキスト認識。
インド語に(微調整)適応させることにより、もともと英語で開発された最先端のモデルを評価した。
本結果は,インド語シーンのテキスト認識における課題と機会を浮き彫りにしたものである。
このデータセットは、この分野の研究を進めるための重要なステップであると考えています。
すべてのモデルとデータはオープンソースです。
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [57.30218240464696]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation [1.9085074258303771]
本研究では,ソース言語からターゲット言語へのシーンテキストの視覚的翻訳作業について検討する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。
本稿では、シーンテキスト認識、機械翻訳、シーンテキスト合成のための最先端モジュールを組み合わせた視覚翻訳のためのケースケードフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T05:23:25Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。