論文の概要: A New Hybrid Model of Generative Adversarial Network and You Only Look Once Algorithm for Automatic License-Plate Recognition
- arxiv url: http://arxiv.org/abs/2509.06868v1
- Date: Mon, 08 Sep 2025 16:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.263488
- Title: A New Hybrid Model of Generative Adversarial Network and You Only Look Once Algorithm for Automatic License-Plate Recognition
- Title(参考訳): 生成逆数ネットワークの新しいハイブリッドモデルとライセンス自動認識アルゴリズムの検討
- Authors: Behnoud Shafiezadeh, Amir Mashmool, Farshad Eshghi, Manoochehr Kelarestaghi,
- Abstract要約: 本稿では,前処理ステップにおけるデブロリングのためのGAN(Generative Adversarial Network)を提案する。
YOLOv5は、ライセンスプレート検出(LPD)と文字認識(CR)の両方で0.026秒の検知時間を達成する。
提案モデルでは, LPD と CR をそれぞれ95%, 97% の精度で検出する。
- 参考スコア(独自算出の注目度): 1.6566053195631465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic License-Plate Recognition (ALPR) plays a pivotal role in Intelligent Transportation Systems (ITS) as a fundamental element of Smart Cities. However, due to its high variability, ALPR faces challenging issues more efficiently addressed by deep learning techniques. In this paper, a selective Generative Adversarial Network (GAN) is proposed for deblurring in the preprocessing step, coupled with the state-of-the-art You-Only-Look-Once (YOLO)v5 object detection architectures for License-Plate Detection (LPD), and the integrated Character Segmentation (CS) and Character Recognition (CR) steps. The selective preprocessing bypasses unnecessary and sometimes counter-productive input manipulations, while YOLOv5 LPD/CS+CR delivers high accuracy and low computing cost. As a result, YOLOv5 achieves a detection time of 0.026 seconds for both LP and CR detection stages, facilitating real-time applications with exceptionally rapid responsiveness. Moreover, the proposed model achieves accuracy rates of 95\% and 97\% in the LPD and CR detection phases, respectively. Furthermore, the inclusion of the Deblur-GAN pre-processor significantly improves detection accuracy by nearly 40\%, especially when encountering blurred License Plates (LPs).To train and test the learning components, we generated and publicly released our blur and ALPR datasets (using Iranian license plates as a use-case), which are more representative of close-to-real-life ad-hoc situations. The findings demonstrate that employing the state-of-the-art YOLO model results in excellent overall precision and detection time, making it well-suited for portable applications. Additionally, integrating the Deblur-GAN model as a preliminary processing step enhances the overall effectiveness of our comprehensive model, particularly when confronted with blurred scenes captured by the camera as input.
- Abstract(参考訳): 知的交通システム(ITS)において、スマートシティの基本要素として、ALPR(Automatic License-Plate Recognition)が重要な役割を担っている。
しかし、高い可変性のため、ALPRはディープラーニング技術によってより効率的に対処されるような課題に直面している。
本稿では,GAN(Generative Adversarial Network, GAN)を前処理ステップでデブロアリングするために提案し, 最先端のYou-Only-Look-Once (YOLO)v5オブジェクト検出アーキテクチャと, CS(Communication Segmentation, CS)とCR( Character Recognition, CR)のステップを組み合わせた。
一方、YOLOv5 LPD/CS+CRは精度が高く、計算コストも低い。
その結果、YOLOv5 は LP と CR の両方検出段階で 0.026 秒の検知時間を達成し、非常に高速な応答性を持つリアルタイムアプリケーションを容易にする。
さらに, 提案モデルでは, LPD と CR 検出フェーズにおいて, 95 % と 97 % の精度をそれぞれ達成している。
さらに、Deblur-GANプリプロセッサを組み込むことで、特にぼやけたライセンスプレート(LP)に遭遇した場合、検出精度が40倍近く向上する。
学習コンポーネントをトレーニングし、テストするために、私たちは、より現実に近いアドホックな状況を表す、ぼかしとALPRデータセット(イランのライセンスプレートをユースケースとして使用)を生成し、公開しました。
その結果、最新のYOLOモデルを用いることで、全体的な精度と検出時間が向上し、ポータブルアプリケーションに適していることが判明した。
さらに,Deblur-GANモデルを予備処理ステップとして統合することにより,包括的モデルの有効性が向上する。
関連論文リスト
- Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving [3.617580194719686]
本稿では、シーンを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。
RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成した。
主要なモデルの効率を上回り、最大75.9%のGPU推論速度とエッジデバイスでの1.38のスループットを提供する。
論文 参考訳(メタデータ) (2025-02-11T09:54:09Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - BLPnet: A new DNN model and Bengali OCR engine for Automatic License
Plate Recognition [1.924182131418037]
本稿では,ベンガル文字の自動ライセンスプレート認識(ALPR)システムについて報告する。
計算ニューラルネットワーク(CNN)ベースの新しいベンガルOCRエンジンにより、モデルは文字回転不変である。
リアルタイムビデオ映像に毎秒17フレーム(fps)を投入するモデルは、平均正方形誤差(MSE)0.0152の車両を検知でき、平均ナンバープレート文字認識精度は95%である。
論文 参考訳(メタデータ) (2022-02-18T22:58:53Z) - Improved YOLOv5 network for real-time multi-scale traffic sign detection [4.5598087061051755]
本稿では,アダプティブアテンションモジュール (AAM) と機能拡張モジュール (FEM) を利用して特徴マップ生成の過程での情報損失を低減する機能ピラミッドモデル AF-FPN を提案する。
YOLOv5の本来の特徴ピラミッドネットワークをAF-FPNに置き換え、YOLOv5ネットワークのマルチスケールターゲットの検出性能を向上させる。
論文 参考訳(メタデータ) (2021-12-16T11:02:12Z) - Modelling Lips-State Detection Using CNN for Non-Verbal Communications [2.0715161308249916]
本稿では,唇状態検出のための2つの新しいコナールニューラルネットワーク(CNN)モデルについて報告する。
我々は6つのキーランドマークのセットでリップ状態モデルを単純化し、その距離をリップ状態の分類に利用する。
モデルの有効性を明らかにするために, フレームレート, 唇の動き, 顔角について検討した。
論文 参考訳(メタデータ) (2021-12-09T08:16:00Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Improving Variational Autoencoder based Out-of-Distribution Detection
for Embedded Real-time Applications [2.9327503320877457]
アウト・オブ・ディストリビューション(OD)検出は、リアルタイムにアウト・オブ・ディストリビューションを検出するという課題に対処する新しいアプローチである。
本稿では,自律走行エージェントの周囲の有害な動きを頑健に検出する方法について述べる。
提案手法は,OoD因子の検出能力を一意に改善し,最先端手法よりも42%向上した。
また,本モデルでは,実験した実世界およびシミュレーション駆動データに対して,最先端技術よりも97%の精度でほぼ完璧に一般化した。
論文 参考訳(メタデータ) (2021-07-25T07:52:53Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。