論文の概要: Leveraging machine learning for less developed languages: Progress on
Urdu text detection
- arxiv url: http://arxiv.org/abs/2209.14022v1
- Date: Wed, 28 Sep 2022 12:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 15:52:54.638679
- Title: Leveraging machine learning for less developed languages: Progress on
Urdu text detection
- Title(参考訳): 少ない言語のための機械学習の活用:Urduテキスト検出の進歩
- Authors: Hazrat Ali
- Abstract要約: 本稿では,シーン画像からUrduテキストを検出する機械学習手法を提案する。
Urduテキストの研究を支援するため、研究用にデータを自由に利用できるようにすることを目標としている。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text detection in natural scene images has applications for autonomous
driving, navigation help for elderly and blind people. However, the research on
Urdu text detection is usually hindered by lack of data resources. We have
developed a dataset of scene images with Urdu text. We present the use of
machine learning methods to perform detection of Urdu text from the scene
images. We extract text regions using channel enhanced Maximally Stable
Extremal Region (MSER) method. First, we classify text and noise based on their
geometric properties. Next, we use a support vector machine for early
discarding of non-text regions. To further remove the non-text regions, we use
histogram of oriented gradients (HoG) features obtained and train a second SVM
classifier. This improves the overall performance on text region detection
within the scene images. To support research on Urdu text, We aim to make the
data freely available for research use. We also aim to highlight the challenges
and the research gap for Urdu text detection.
- Abstract(参考訳): 自然風景画像におけるテキスト検出は、自律運転や高齢者や盲目の人のナビゲーション支援に応用できる。
しかし、Urduテキスト検出の研究は通常、データリソースの不足によって妨げられている。
ウルドゥテキストを用いたシーン画像のデータセットを開発した。
本稿では,シーン画像からウルドゥーテキストを検出するための機械学習手法を提案する。
我々は,最大安定極域 (MSER) 法を用いてテキスト領域を抽出する。
まず,テキストと雑音を幾何学的性質に基づいて分類する。
次に,サポートベクトルマシンを用いて非テキスト領域の早期破棄を行う。
非テキスト領域をさらに除去するために、得られた指向性勾配(HoG)特徴のヒストグラムを使用し、第2のSVM分類器を訓練する。
これにより、シーン画像内のテキスト領域検出の全体的なパフォーマンスが向上する。
Urduテキストの研究を支援するため、研究用にデータを自由に利用することを目指している。
また,Urduテキスト検出の課題と研究ギャップについても強調する。
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - Urdu text in natural scene images: a new dataset and preliminary text
detection [3.070994681743188]
本研究は,自然シーン画像におけるUrduテキストの新しいデータセットを導入する。
データセットは、実際のシーンから取得された500のスタンドアロンイメージで構成されている。
画像中の候補としてUrduテキスト領域を抽出するためにMSER法を適用する。
論文 参考訳(メタデータ) (2021-09-16T15:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。