論文の概要: Urdu text in natural scene images: a new dataset and preliminary text
detection
- arxiv url: http://arxiv.org/abs/2109.08060v1
- Date: Thu, 16 Sep 2021 15:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:05:17.726601
- Title: Urdu text in natural scene images: a new dataset and preliminary text
detection
- Title(参考訳): 自然シーン画像におけるウルドゥー文字:新しいデータセットと予備テキスト検出
- Authors: Hazrat Ali, Khalid Iqbal, Ghulam Mujtaba, Ahmad Fayyaz, Mohammad
Farhad Bulbul, Fazal Wahab Karam and Ali Zahir
- Abstract要約: 本研究は,自然シーン画像におけるUrduテキストの新しいデータセットを導入する。
データセットは、実際のシーンから取得された500のスタンドアロンイメージで構成されている。
画像中の候補としてUrduテキスト領域を抽出するためにMSER法を適用する。
- 参考スコア(独自算出の注目度): 3.070994681743188
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text detection in natural scene images for content analysis is an interesting
task. The research community has seen some great developments for
English/Mandarin text detection. However, Urdu text extraction in natural scene
images is a task not well addressed. In this work, firstly, a new dataset is
introduced for Urdu text in natural scene images. The dataset comprises of 500
standalone images acquired from real scenes. Secondly, the channel enhanced
Maximally Stable Extremal Region (MSER) method is applied to extract Urdu text
regions as candidates in an image. Two-stage filtering mechanism is applied to
eliminate non-candidate regions. In the first stage, text and noise are
classified based on their geometric properties. In the second stage, a support
vector machine classifier is trained to discard non-text candidate regions.
After this, text candidate regions are linked using centroid-based vertical and
horizontal distances. Text lines are further analyzed by a different classifier
based on HOG features to remove non-text regions. Extensive experimentation is
performed on the locally developed dataset to evaluate the performance. The
experimental results show good performance on test set images. The dataset will
be made available for research use. To the best of our knowledge, the work is
the first of its kind for the Urdu language and would provide a good dataset
for free research use and serve as a baseline performance on the task of Urdu
text extraction.
- Abstract(参考訳): コンテンツ解析のための自然シーン画像中のテキスト検出は興味深い課題である。
研究コミュニティは英語とマンダリンのテキスト検出に大きな進歩を遂げてきた。
しかし,自然シーン画像におけるウルドゥー語のテキスト抽出は未解決な課題である。
本研究では,まず,自然シーン画像中のUrduテキストに新しいデータセットを導入する。
データセットは、実際のシーンから取得した500のスタンドアロンイメージで構成されている。
次に、最大安定な四肢領域(mser)法を適用し、画像中の候補としてウルドゥテキスト領域を抽出する。
非候補領域を除去するために二段階フィルタリング機構が適用される。
第1段階では、テキストとノイズはその幾何学的性質に基づいて分類される。
第2段階では、サポートベクトルマシン分類器が訓練され、非テキスト候補領域を破棄する。
その後、テキスト候補領域は、センタロイドベースの垂直距離と水平距離でリンクされる。
テキスト行はさらにHOG機能に基づいて異なる分類器によって分析され、非テキスト領域を削除する。
パフォーマンスを評価するために、ローカルに開発されたデータセットで広範囲の実験が行われる。
実験結果は,テストセット画像において良好な性能を示す。
データセットは研究用に提供される予定だ。
我々の知る限りでは、この研究はウルドゥー語にとって最初のものであり、自由な研究用データセットを提供し、ウルドゥー語テキスト抽出のタスクにおけるベースラインのパフォーマンスとして機能する。
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis [0.76146285961466]
STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
論文 参考訳(メタデータ) (2022-10-14T03:34:21Z) - Leveraging machine learning for less developed languages: Progress on
Urdu text detection [0.76146285961466]
本稿では,シーン画像からUrduテキストを検出する機械学習手法を提案する。
Urduテキストの研究を支援するため、研究用にデータを自由に利用できるようにすることを目標としている。
論文 参考訳(メタデータ) (2022-09-28T12:00:34Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。