論文の概要: Towards Detecting, Recognizing, and Parsing the Address Information from
Bangla Signboard: A Deep Learning-based Approach
- arxiv url: http://arxiv.org/abs/2311.13222v1
- Date: Wed, 22 Nov 2023 08:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:41:02.543640
- Title: Towards Detecting, Recognizing, and Parsing the Address Information from
Bangla Signboard: A Deep Learning-based Approach
- Title(参考訳): Bangla Signboardからの住所情報の検出・認識・解析に向けて:ディープラーニングによるアプローチ
- Authors: Hasan Murad, Mohammed Eunus Ali
- Abstract要約: 我々は,バングラの看板から情報を検出し,認識し,修正し,解析する深層学習モデルを用いたエンドツーエンドシステムを提案する。
我々は手動で注釈付き合成データセットを作成し、サインボード検出、アドレステキスト検出、アドレステキスト認識、アドレステキストモデルを訓練した。
最後に,最先端のトランスフォーマーに基づく事前学習言語モデルを用いて,Banglaアドレステキストを開発した。
- 参考スコア(独自算出の注目度): 1.3778851745408136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving textual information from natural scene images is an active
research area in the field of computer vision with numerous practical
applications. Detecting text regions and extracting text from signboards is a
challenging problem due to special characteristics like reflecting lights,
uneven illumination, or shadows found in real-life natural scene images. With
the advent of deep learning-based methods, different sophisticated techniques
have been proposed for text detection and text recognition from the natural
scene. Though a significant amount of effort has been devoted to extracting
natural scene text for resourceful languages like English, little has been done
for low-resource languages like Bangla. In this research work, we have proposed
an end-to-end system with deep learning-based models for efficiently detecting,
recognizing, correcting, and parsing address information from Bangla
signboards. We have created manually annotated datasets and synthetic datasets
to train signboard detection, address text detection, address text recognition,
address text correction, and address text parser models. We have conducted a
comparative study among different CTC-based and Encoder-Decoder model
architectures for Bangla address text recognition. Moreover, we have designed a
novel address text correction model using a sequence-to-sequence
transformer-based network to improve the performance of Bangla address text
recognition model by post-correction. Finally, we have developed a Bangla
address text parser using the state-of-the-art transformer-based pre-trained
language model.
- Abstract(参考訳): 自然風景画像からテキスト情報を取得することは、多くの実用的な応用を伴うコンピュータビジョンの分野で活発な研究分野である。
テキスト領域の検出と看板からのテキスト抽出は、実生活の自然風景画像に見られる反射光や不均一な照明、影といった特殊な特徴から、難しい問題である。
深層学習に基づく手法の出現に伴い,自然界からのテキスト検出やテキスト認識に様々な高度な技術が提案されている。
英語のような資源豊かな言語のための自然のシーンテキストの抽出にかなりの労力が費やされてきたが、バングラのような低リソース言語ではほとんど行われていない。
本研究では,バングラの看板からアドレス情報を効率よく検出,認識,修正,解析する深層学習モデルを用いたエンドツーエンドシステムを提案する。
我々は、手作業で注釈付きデータセットと合成データセットを作成し、サインボード検出、アドレステキスト検出、アドレステキスト認識、アドレステキスト修正、アドレステキストパーサモデルを訓練した。
我々は,Banglaアドレステキスト認識のためのCTCベースとEncoder-Decoderモデルアーキテクチャの比較研究を行った。
さらに, 逐次変換器を用いた新しいアドレステキスト補正モデルを開発し, バングラアドレステキスト認識モデルの性能を後修正により向上させた。
最後に,最先端のトランスフォーマベースの事前学習言語モデルを用いたバングラアドレステキストパーサを開発した。
関連論文リスト
- The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Research on Multilingual Natural Scene Text Detection Algorithm [4.514028820667202]
自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。
そこで我々は,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語にわたる文字やフォントの検出において,モデルの堅牢性を高める。
そこで本研究では,より効率的なテキスト検出のためのグローバルな特徴を抽出し,保存するグローバルセマンティックブランチを提案する。
論文 参考訳(メタデータ) (2023-12-18T12:46:35Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Weakly Supervised Scene Text Generation for Low-resource Languages [19.243705770491577]
シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。
既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。
本稿では,いくつかの認識レベルラベルを弱監督として活用する,弱教師付きシーンテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T15:26:06Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。