論文の概要: Neural Sentinel: Unified Vision Language Model (VLM) for License Plate Recognition with Human-in-the-Loop Continual Learning
- arxiv url: http://arxiv.org/abs/2602.07051v1
- Date: Wed, 04 Feb 2026 16:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.402042
- Title: Neural Sentinel: Unified Vision Language Model (VLM) for License Plate Recognition with Human-in-the-Loop Continual Learning
- Title(参考訳): ニューラルインザループ連続学習によるライセンスプレート認識のための統一視覚言語モデル(VLM)
- Authors: Karthik Sivakoti,
- Abstract要約: この研究は、ライセンスプレートの認識、状態分類、車両抽出を1つの前方パスで特徴付ける新しい統一的なアプローチであるNeural Sentinelを提案する。
我々の主な貢献は、Low-Rank Adaptation (LoRA)を介して適応された微調整のPaliGemma 3Bモデルが、車両画像に関する複数の視覚的疑問に同時に答えられることを示すことである。
このシステムは、予測エラー(ECE)0.048で152msの平均推定遅延を達成し、信頼度の高い推定値を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional Automatic License Plate Recognition (ALPR) systems employ multi-stage pipelines consisting of object detection networks followed by separate Optical Character Recognition (OCR) modules, introducing compounding errors, increased latency, and architectural complexity. This research presents Neural Sentinel, a novel unified approach that leverages Vision Language Models (VLMs) to perform license plate recognition, state classification, and vehicle attribute extraction through a single forward pass. Our primary contribution lies in demonstrating that a fine-tuned PaliGemma 3B model, adapted via Low-Rank Adaptation (LoRA), can simultaneously answer multiple visual questions about vehicle images, achieving 92.3% plate recognition accuracy, which is a 14.1% improvement over EasyOCR and 9.9% improvement over PaddleOCR baselines. We introduce a Human-in-the-Loop (HITL) continual learning framework that incorporates user corrections while preventing catastrophic forgetting through experience replay, maintaining a 70:30 ratio of original training data to correction samples. The system achieves a mean inference latency of 152ms with an Expected Calibration Error (ECE) of 0.048, indicating well calibrated confidence estimates. Additionally, the VLM first architecture enables zero-shot generalization to auxiliary tasks including vehicle color detection (89%), seatbelt detection (82%), and occupancy counting (78%) without task specific training. Through extensive experimentation on real world toll plaza imagery, we demonstrate that unified vision language approaches represent a paradigm shift in ALPR systems, offering superior accuracy, reduced architectural complexity, and emergent multi-task capabilities that traditional pipeline approaches cannot achieve.
- Abstract(参考訳): 従来のALPR(Automatic License Plate Recognition)システムは、オブジェクト検出ネットワークとOCR(Optical Character Recognition)モジュールからなる多段階パイプラインを使用しており、複雑なエラー、遅延の増加、アーキテクチャの複雑さを導入している。
本研究では,視覚言語モデル(VLM)を活用して,ナンバープレート認識,状態分類,車両属性抽出を行う新しい統一アプローチであるNeural Sentinelを提案する。
我々の主な貢献は、Low-Rank Adaptation (LoRA)で適応された微調整のPaliGemma 3Bモデルが、車両画像に関する複数の視覚的疑問に同時に答えられることを示し、92.3%のプレート認識精度を達成でき、これはEasyOCRよりも14.1%、PaddleOCRベースラインより9.9%改善されている。
本稿では,ユーザ修正を取り入れたHuman-in-the-Loop(HITL)継続学習フレームワークを提案する。
このシステムは、予測キャリブレーション誤差(ECE)0.048で152msの平均推定遅延を達成し、精度の高い信頼性推定値を示す。
さらに、VLM第1アーキテクチャでは、車両の色検出(89%)、シートベルト検出(82%)、乗員計数(78%)などの補助的なタスクをタスク固有の訓練なしでゼロショットで一般化することができる。
実世界の有料プラザ画像の広範な実験を通じて、統合視覚言語アプローチはALPRシステムのパラダイムシフトを表し、より優れた精度、アーキテクチャの複雑さの低減、従来のパイプラインアプローチでは達成できない創発的なマルチタスク能力を提供する。
関連論文リスト
- Next-Generation License Plate Detection and Recognition System using YOLOv8 [0.0]
本研究では,ライセンスプレート認識(LPR)および文字認識タスクにおけるYOLOv8変種の性能について検討した。
YOLOv8 NanoはLPRタスクで0.964と0.918のmAP50の精度を示し、YOLOv8 Smallは文字認識タスクで0.92とmAP50の精度を示した。
論文 参考訳(メタデータ) (2025-12-18T18:06:29Z) - Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision [2.0720154517628417]
オープン語彙検出とクロスモーダル学習を組み合わせた新しいフレームワークを提案する。
交通信号検出のために,NanoVerse YOLOモデルは視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合している。
交通標識分類のための交通信号認識マルチモーダルコントラスト学習モデル(TSR-MCL)を設計した。
TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
論文 参考訳(メタデータ) (2025-07-31T08:23:30Z) - Connecting Vision and Emissions: A Behavioural AI Approach to Carbon Estimation in Road Design [0.0]
都市環境における二酸化炭素排出量を推定するためのリアルタイム車両検出・分類フレームワークを改良したYOLOv8を提案する。
このフレームワークは、検出された各車両が追跡され、そのバウンディングボックスが収穫され、ディープ光学文字認識(OCR)モジュールに渡されるハイブリッドパイプラインを含む。
このOCRシステムは、複数の畳み込みニューラルネットワーク(CNN)層で構成され、文字レベルの検出とライセンスプレートの復号のために特別に訓練されている。
論文 参考訳(メタデータ) (2025-06-18T11:50:24Z) - Exploring FMCW Radars and Feature Maps for Activity Recognition: A Benchmark Study [2.251010251400407]
本研究では、人間の活動認識のための周波数変調連続波レーダに基づくフレームワークを提案する。
特徴写像を画像として処理する従来の手法とは異なり、本研究では多次元特徴写像をデータベクトルとして与える。
ConvLSTMモデルは従来の機械学習およびディープラーニングモデルよりも優れ、精度は90.51%に達した。
論文 参考訳(メタデータ) (2025-03-07T17:53:29Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - The AI Mechanic: Acoustic Vehicle Characterization Neural Networks [1.8275108630751837]
我々は,モバイルデバイスから取得した音声を用いて,音響車両の特徴的深層学習システムであるAIメカニックを紹介する。
我々は、故障検出を強化するために車両特性を予測し、カスケードする畳み込みニューラルネットワークを構築している。
我々のカスケーディングアーキテクチャは、さらに93.6%の検証と86.8%のテストセットの正確さを達成し、16.4%/7.8%と4.2%/1.5%のマージンを示した。
論文 参考訳(メタデータ) (2022-05-19T16:29:26Z) - Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle
Re-Identification [53.6218051770131]
クロスビューの一貫した機能表現は、正確な車両ReIDの鍵です。
既存のアプローチは、広範な余分な視点アノテーションを使用して、クロスビュー学習を監督する。
Weakly-supervised Cross-View Learning (WCVL) モジュールを車載用として提案する。
論文 参考訳(メタデータ) (2021-03-09T11:51:09Z) - Automatic Counting and Identification of Train Wagons Based on Computer
Vision and Deep Learning [70.84106972725917]
提案手法は費用対効果が高く,RFIDに基づく解を容易に置き換えることができる。
このシステムは、識別コードに損傷があるため、列車のワゴンの一部を自動的に拒絶することができる。
論文 参考訳(メタデータ) (2020-10-30T14:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。