論文の概要: BLPnet: A New DNN model for Automatic License Plate Detection with
Bengali OCR
- arxiv url: http://arxiv.org/abs/2112.04752v1
- Date: Thu, 9 Dec 2021 08:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 21:02:06.475574
- Title: BLPnet: A New DNN model for Automatic License Plate Detection with
Bengali OCR
- Title(参考訳): BLPnet: Bengali OCRによるプレート自動検出のための新しいDNNモデル
- Authors: Md Saif Hassan Onim, Hussain Nyeem, Koushik Roy, Mahmudul Hasan,
Abtahi Ishmam, Md. Akiful Hoque Akif and Tareque Bashar Ovi
- Abstract要約: 本稿では,ベンガル文字の自動ライセンスプレート認識(ALPR)システムについて報告する。
新しいベンガルOCRエンジンとワードマッピングプロセスにより、モデルは車両の完全なライセンスプレート番号を抽出し、検出し、出力することができる。
リアルタイムビデオ映像に毎秒17フレーム(fps)を投入するモデルは、平均正方形誤差(MSE)0.0152の車両を検知でき、平均ナンバープレート文字認識精度は95%である。
- 参考スコア(独自算出の注目度): 3.0325110391148264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Neural Network (DNN) models with image processing and object
localization have the potential to advance the automatic traffic control and
monitoring system. Despite some notable progress in developing robust license
plate detection models, research endeavours continue to reduce computational
complexities with higher detection accuracy. This paper reports a
computationally efficient and reasonably accurate Automatic License Plate
Recognition (ALPR) system for Bengali characters with a new DNN model that we
call Bengali License Plate Network (BLPnet). Additionally, the cascaded
architectures for detecting vehicle regions prior to VLP in the proposed model,
would significantly reduce computational cost and false-positives making the
system faster and more accurate. Besides, with a new Bengali OCR engine and
word-mapping process, the model can readily extract, detect and output the
complete license-plate number of a vehicle. The model feeding with17 frames per
second (fps) on real-time video footage can detect a vehicle with the Mean
Squared Error (MSE) of 0.0152, and the mean license plate character recognition
accuracy of 95%. While compared to the other models, an improvement of 5% and
20% were recorded for the BLPnet over the prominent YOLO-based ALPR model and
Tesseract model for the number-plate detection accuracy and time requirement,
respectively.
- Abstract(参考訳): 画像処理とオブジェクトローカライゼーションを備えたディープニューラルネットワーク(DNN)モデルは、自動トラフィック制御と監視システムを前進させる可能性がある。
堅牢なプレート検出モデルの開発においていくつかの顕著な進歩があったが、研究は高い検出精度で計算の複雑さを減らし続けている。
本稿では,ベンガルライセンスプレートネットワーク(blpnet)と呼ばれる新しいdnnモデルを用いたベンガル文字の自動ライセンスプレート認識(alpr)システムについて報告する。
さらに,提案モデルでは,VLP以前の車両領域を検出するためのカスケードアーキテクチャにより,計算コストと偽陽性が大幅に削減され,より高速かつ精度が向上する。
さらに、新しいベンガルOCRエンジンとワードマッピングプロセスにより、モデルは車両の完全なライセンスプレート番号を抽出し、検出し、出力することができる。
リアルタイムビデオ映像に17フレーム/秒(fps)を供給したモデルは、平均二乗誤差(mse)0.0152、平均ライセンスプレート文字認識精度95%の車両を検出することができる。
他のモデルと比較すると、blpnetでは、ナンバープレート検出精度と時間要件に対して、著名なヨーロベースのalprモデルとtesseractモデルよりも5%と20%の改善が記録された。
関連論文リスト
- Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - Exploring Deep Learning for Joint Audio-Visual Lip Biometrics [54.32039064193566]
音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。
大規模なAVデータベースの欠如は、ディープラーニングベースのオーディオビジュアルリップバイオメトリックの探索を妨げる。
我々は、畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール、時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール、マルチモーダル融合モジュールで実現されたDeepLip AVリップバイオメトリックスシステムを確立する。
論文 参考訳(メタデータ) (2021-04-17T10:51:55Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Effects of Number of Filters of Convolutional Layers on Speech
Recognition Model Accuracy [6.2698513174194215]
本稿では,ASRモデルに対するCNN+RNNのモデル予測精度に及ぼす畳み込み層フィルタ数の影響について検討する。
実験結果から,フィルタのCNN数が一定の閾値を超えた場合のみ,CNN+RNN音声認識モデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-02-03T23:04:38Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。