論文の概要: Leveraging machine learning for less developed languages: Progress on
Urdu text detection
- arxiv url: http://arxiv.org/abs/2209.14022v1
- Date: Wed, 28 Sep 2022 12:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 15:52:54.638679
- Title: Leveraging machine learning for less developed languages: Progress on
Urdu text detection
- Title(参考訳): 少ない言語のための機械学習の活用:Urduテキスト検出の進歩
- Authors: Hazrat Ali
- Abstract要約: 本稿では,シーン画像からUrduテキストを検出する機械学習手法を提案する。
Urduテキストの研究を支援するため、研究用にデータを自由に利用できるようにすることを目標としている。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text detection in natural scene images has applications for autonomous
driving, navigation help for elderly and blind people. However, the research on
Urdu text detection is usually hindered by lack of data resources. We have
developed a dataset of scene images with Urdu text. We present the use of
machine learning methods to perform detection of Urdu text from the scene
images. We extract text regions using channel enhanced Maximally Stable
Extremal Region (MSER) method. First, we classify text and noise based on their
geometric properties. Next, we use a support vector machine for early
discarding of non-text regions. To further remove the non-text regions, we use
histogram of oriented gradients (HoG) features obtained and train a second SVM
classifier. This improves the overall performance on text region detection
within the scene images. To support research on Urdu text, We aim to make the
data freely available for research use. We also aim to highlight the challenges
and the research gap for Urdu text detection.
- Abstract(参考訳): 自然風景画像におけるテキスト検出は、自律運転や高齢者や盲目の人のナビゲーション支援に応用できる。
しかし、Urduテキスト検出の研究は通常、データリソースの不足によって妨げられている。
ウルドゥテキストを用いたシーン画像のデータセットを開発した。
本稿では,シーン画像からウルドゥーテキストを検出するための機械学習手法を提案する。
我々は,最大安定極域 (MSER) 法を用いてテキスト領域を抽出する。
まず,テキストと雑音を幾何学的性質に基づいて分類する。
次に,サポートベクトルマシンを用いて非テキスト領域の早期破棄を行う。
非テキスト領域をさらに除去するために、得られた指向性勾配(HoG)特徴のヒストグラムを使用し、第2のSVM分類器を訓練する。
これにより、シーン画像内のテキスト領域検出の全体的なパフォーマンスが向上する。
Urduテキストの研究を支援するため、研究用にデータを自由に利用することを目指している。
また,Urduテキスト検出の課題と研究ギャップについても強調する。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Towards Detecting, Recognizing, and Parsing the Address Information from
Bangla Signboard: A Deep Learning-based Approach [1.3778851745408136]
我々は,バングラの看板から情報を検出し,認識し,修正し,解析する深層学習モデルを用いたエンドツーエンドシステムを提案する。
我々は手動で注釈付き合成データセットを作成し、サインボード検出、アドレステキスト検出、アドレステキスト認識、アドレステキストモデルを訓練した。
最後に,最先端のトランスフォーマーに基づく事前学習言語モデルを用いて,Banglaアドレステキストを開発した。
論文 参考訳(メタデータ) (2023-11-22T08:25:15Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - Urdu text in natural scene images: a new dataset and preliminary text
detection [3.070994681743188]
本研究は,自然シーン画像におけるUrduテキストの新しいデータセットを導入する。
データセットは、実際のシーンから取得された500のスタンドアロンイメージで構成されている。
画像中の候補としてUrduテキスト領域を抽出するためにMSER法を適用する。
論文 参考訳(メタデータ) (2021-09-16T15:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。