論文の概要: Urdu text in natural scene images: a new dataset and preliminary text
detection
- arxiv url: http://arxiv.org/abs/2109.08060v1
- Date: Thu, 16 Sep 2021 15:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:05:17.726601
- Title: Urdu text in natural scene images: a new dataset and preliminary text
detection
- Title(参考訳): 自然シーン画像におけるウルドゥー文字:新しいデータセットと予備テキスト検出
- Authors: Hazrat Ali, Khalid Iqbal, Ghulam Mujtaba, Ahmad Fayyaz, Mohammad
Farhad Bulbul, Fazal Wahab Karam and Ali Zahir
- Abstract要約: 本研究は,自然シーン画像におけるUrduテキストの新しいデータセットを導入する。
データセットは、実際のシーンから取得された500のスタンドアロンイメージで構成されている。
画像中の候補としてUrduテキスト領域を抽出するためにMSER法を適用する。
- 参考スコア(独自算出の注目度): 3.070994681743188
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text detection in natural scene images for content analysis is an interesting
task. The research community has seen some great developments for
English/Mandarin text detection. However, Urdu text extraction in natural scene
images is a task not well addressed. In this work, firstly, a new dataset is
introduced for Urdu text in natural scene images. The dataset comprises of 500
standalone images acquired from real scenes. Secondly, the channel enhanced
Maximally Stable Extremal Region (MSER) method is applied to extract Urdu text
regions as candidates in an image. Two-stage filtering mechanism is applied to
eliminate non-candidate regions. In the first stage, text and noise are
classified based on their geometric properties. In the second stage, a support
vector machine classifier is trained to discard non-text candidate regions.
After this, text candidate regions are linked using centroid-based vertical and
horizontal distances. Text lines are further analyzed by a different classifier
based on HOG features to remove non-text regions. Extensive experimentation is
performed on the locally developed dataset to evaluate the performance. The
experimental results show good performance on test set images. The dataset will
be made available for research use. To the best of our knowledge, the work is
the first of its kind for the Urdu language and would provide a good dataset
for free research use and serve as a baseline performance on the task of Urdu
text extraction.
- Abstract(参考訳): コンテンツ解析のための自然シーン画像中のテキスト検出は興味深い課題である。
研究コミュニティは英語とマンダリンのテキスト検出に大きな進歩を遂げてきた。
しかし,自然シーン画像におけるウルドゥー語のテキスト抽出は未解決な課題である。
本研究では,まず,自然シーン画像中のUrduテキストに新しいデータセットを導入する。
データセットは、実際のシーンから取得した500のスタンドアロンイメージで構成されている。
次に、最大安定な四肢領域(mser)法を適用し、画像中の候補としてウルドゥテキスト領域を抽出する。
非候補領域を除去するために二段階フィルタリング機構が適用される。
第1段階では、テキストとノイズはその幾何学的性質に基づいて分類される。
第2段階では、サポートベクトルマシン分類器が訓練され、非テキスト候補領域を破棄する。
その後、テキスト候補領域は、センタロイドベースの垂直距離と水平距離でリンクされる。
テキスト行はさらにHOG機能に基づいて異なる分類器によって分析され、非テキスト領域を削除する。
パフォーマンスを評価するために、ローカルに開発されたデータセットで広範囲の実験が行われる。
実験結果は,テストセット画像において良好な性能を示す。
データセットは研究用に提供される予定だ。
我々の知る限りでは、この研究はウルドゥー語にとって最初のものであり、自由な研究用データセットを提供し、ウルドゥー語テキスト抽出のタスクにおけるベースラインのパフォーマンスとして機能する。
関連論文リスト
- Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis [0.76146285961466]
STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
論文 参考訳(メタデータ) (2022-10-14T03:34:21Z) - Leveraging machine learning for less developed languages: Progress on
Urdu text detection [0.76146285961466]
本稿では,シーン画像からUrduテキストを検出する機械学習手法を提案する。
Urduテキストの研究を支援するため、研究用にデータを自由に利用できるようにすることを目標としている。
論文 参考訳(メタデータ) (2022-09-28T12:00:34Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。