論文の概要: A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR
- arxiv url: http://arxiv.org/abs/2603.10267v1
- Date: Tue, 10 Mar 2026 22:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.714907
- Title: A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR
- Title(参考訳): YOLOとVision-Language OCRを用いたBanglaライセンスプレート認識のためのロバストディープラーニングフレームワーク
- Authors: Nayeb Hasin, Md. Arafath Rahman Nishat, Mainul Islam, Khandakar Shakib Al Hasan, Asif Newaz,
- Abstract要約: 複雑な文字スキームと不均一なレイアウトのため、バングラナンバープレートの検出は依然として困難である。
本稿では,ライセンスプレートの局所化のためのディープラーニングに基づくオブジェクト検出モデルと,テキスト抽出のための光文字認識を統合した,堅牢なBanglaライセンスプレート認識システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An Automatic License Plate Recognition (ALPR) system constitutes a crucial element in an intelligent traffic management system. However, the detection of Bangla license plates remains challenging because of the complicated character scheme and uneven layouts. This paper presents a robust Bangla License Plate Recognition system that integrates a deep learning-based object detection model for license plate localization with Optical Character Recognition for text extraction. Multiple object detection architectures, including U-Net and several YOLO (You Only Look Once) variants, are compared for license plate localization. This study proposes a novel two-stage adaptive training strategy built upon the YOLOv8 architecture to improve localization performance. The proposed approach outperforms the established models, achieving an accuracy of 97.83% and an Intersection over Union (IoU) of 91.3%. The text recognition problem is phrased as a sequence generation problem with a VisionEncoderDecoder architecture, with a combination of encoder-decoders evaluated. It was demonstrated that the ViT + BanglaBERT model gives better results at the character level, with a Character Error Rate of 0.1323 and Word Error Rate of 0.1068. The proposed system also shows a consistent performance when tested on an external dataset that has been curated for this study purpose. The dataset offers completely different environment and lighting conditions compared to the training sample, indicating the robustness of the proposed framework. Overall, our proposed system provides a robust and reliable solution for Bangla license plate recognition and performs effectively across diverse real-world scenarios, including variations in lighting, noise, and plate styles. These strengths make it well suited for deployment in intelligent transportation applications such as automated law enforcement and access control.
- Abstract(参考訳): 自動ナンバープレート認識(ALPR)システムは、インテリジェントトラフィック管理システムにおいて重要な要素である。
しかし、複雑な文字スキームと不均一なレイアウトのため、バングラナンバープレートの検出は依然として困難である。
本稿では,ライセンスプレートの局所化のためのディープラーニングに基づくオブジェクト検出モデルと,テキスト抽出のための光文字認識を統合した,堅牢なBanglaライセンスプレート認識システムを提案する。
U-Net や YOLO (You Only Look Once) など,複数のオブジェクト検出アーキテクチャをライセンスプレートのローカライゼーションと比較する。
そこで本研究では, YOLOv8アーキテクチャに基づく2段階適応型学習手法を提案する。
提案手法は確立されたモデルよりも優れており、精度は97.83%、IoU(Intersection over Union)は91.3%である。
テキスト認識問題は、VisionEncoderDecoderアーキテクチャでシーケンス生成問題として表現され、エンコーダ-デコーダの組み合わせが評価される。
ViT + BanglaBERTモデルでは文字レベルの精度が向上し、キャラクタエラー率0.1323、ワードエラー率0.1068が示された。
提案システムは,本研究のためにキュレートされた外部データセット上でテストした場合,一貫した性能を示す。
データセットはトレーニングサンプルとはまったく異なる環境と照明条件を提供し、提案したフレームワークの堅牢性を示している。
提案システムは,バングラナンバープレート認識のための堅牢で信頼性の高いソリューションを提供し,照明,騒音,プレートスタイルのバリエーションを含む,さまざまな現実シナリオに対して効果的に機能する。
これらの強みは、自動化された法執行やアクセス制御のようなインテリジェントな輸送アプリケーションへの展開に適している。
関連論文リスト
- Neural Sentinel: Unified Vision Language Model (VLM) for License Plate Recognition with Human-in-the-Loop Continual Learning [0.0]
この研究は、ライセンスプレートの認識、状態分類、車両抽出を1つの前方パスで特徴付ける新しい統一的なアプローチであるNeural Sentinelを提案する。
我々の主な貢献は、Low-Rank Adaptation (LoRA)を介して適応された微調整のPaliGemma 3Bモデルが、車両画像に関する複数の視覚的疑問に同時に答えられることを示すことである。
このシステムは、予測エラー(ECE)0.048で152msの平均推定遅延を達成し、信頼度の高い推定値を示す。
論文 参考訳(メタデータ) (2026-02-04T16:04:15Z) - Efficient License Plate Recognition via Pseudo-Labeled Supervision with Grounding DINO and YOLOv8 [0.29949629644252374]
ALPRは交通制御、駐車、車両追跡、料金徴収、法執行機関の応用において不可欠である。
本稿では, YOLOv8によるプレート検出・認識タスクの深層学習戦略を提案する。
これは、CENPARMI(Center for Pattern Recognition and Machine Intelligence)のデータセットで94%、UFPR-ALPRデータセットで91%という驚くべきリコール率を達成した。
論文 参考訳(メタデータ) (2025-10-28T23:21:00Z) - Layout-Independent License Plate Recognition via Integrated Vision and Language Models [6.302166748545872]
自動ナンバープレート認識(ALPR)のためのパターン認識フレームワークを提案する。
多様なプレートレイアウトを確実に運用し、現実の環境に挑戦するように設計されている。
実験により,最近のセグメンテーションフリーアプローチと比較して精度とロバスト性が向上した。
論文 参考訳(メタデータ) (2025-10-12T10:25:21Z) - Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection [54.433899174017185]
信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。
NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。
ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
論文 参考訳(メタデータ) (2025-07-26T07:44:04Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - A Dataset and Model for Realistic License Plate Deblurring [17.52035404373648]
ライセンスプレートブラ(LPBlur)と呼ばれる,最初の大規模ナンバープレートデブロアリングデータセットについて紹介する。
そこで我々は,ライセンスプレート・デブロアリングに対処するために,LPDGAN (L License Plate Deblurring Generative Adversarial Network) を提案する。
提案手法は,現実的なナンバープレートのデブロアリングシナリオにおいて,他の最先端の動作デブロアリング手法よりも優れる。
論文 参考訳(メタデータ) (2024-04-21T14:36:57Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - End-to-End High Accuracy License Plate Recognition Based on Depthwise
Separable Convolution Networks [0.0]
ライセンスプレート認識のための新しいセグメンテーションフリーフレームワークを提案し,NP-ALPRデータセットを導入した。
提案するネットワークモデルは,最新のディープラーニング手法と最先端のアイデアと,新しいネットワークアーキテクチャのメリットで構成されている。
提案手法の有効性を3つの異なるデータセットで評価し,99%以上,70fps以上の認識精度を示した。
論文 参考訳(メタデータ) (2022-02-21T14:45:03Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Automatic Counting and Identification of Train Wagons Based on Computer
Vision and Deep Learning [70.84106972725917]
提案手法は費用対効果が高く,RFIDに基づく解を容易に置き換えることができる。
このシステムは、識別コードに損傷があるため、列車のワゴンの一部を自動的に拒絶することができる。
論文 参考訳(メタデータ) (2020-10-30T14:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。