論文の概要: BLPR: Robust License Plate Recognition under Viewpoint and Illumination Variations via Confidence-Driven VLM Fallback
- arxiv url: http://arxiv.org/abs/2604.09927v1
- Date: Fri, 10 Apr 2026 21:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.752391
- Title: BLPR: Robust License Plate Recognition under Viewpoint and Illumination Variations via Confidence-Driven VLM Fallback
- Title(参考訳): BLPR:信頼性駆動型VLMフォールバックによる照度変動を考慮したロバストナンバープレート認識
- Authors: Guillermo Auza Banegas, Diego Calvimontes Vera, Sergio Castro Sandoval, Natalia Condori Peredo, Edwin Salcedo,
- Abstract要約: 本稿では,ボリビアのライセンスプレートに特化して設計された,新しいディープラーニングベースのライセンスプレート検出・認識フレームワークを提案する。
提案システムは、Blenderで生成された合成データに基づいて、YOLOベースの検出器を事前訓練する2段階のパイプラインに従う。
このシステムは、実世界のデータに対して89.6%の文字レベルの認識精度を実現し、挑戦的な都市環境への展開の有効性を示す。
- 参考スコア(独自算出の注目度): 0.8926650195128043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust license plate recognition in unconstrained environments remains a significant challenge, particularly in underrepresented regions with limited data availability and unique visual characteristics, such as Bolivia. Recognition accuracy in real-world conditions is often degraded by factors such as illumination changes and viewpoint distortion. To address these challenges, we introduce BLPR, a novel deep learning-based License Plate Detection and Recognition (LPDR) framework specifically designed for Bolivian license plates. The proposed system follows a two-stage pipeline where a YOLO-based detector is pretrained on synthetic data generated in Blender to simulate extreme perspectives and lighting conditions, and subsequently fine-tuned on street-level data collected in La Paz, Bolivia. Detected plates are geometrically rectified and passed to a character recognition model. To improve robustness under ambiguous scenarios, a lightweight vision-language model (Gemma3 4B) is selectively triggered as a confidence-based fallback mechanism. The proposed framework further leverages synthetic-to-real domain adaptation to improve robustness under diverse real-world conditions. We also introduce the first publicly available Bolivian LPDR dataset, enabling evaluation under diverse viewpoint and illumination conditions. The system achieves a character-level recognition accuracy of 89.6% on real-world data, demonstrating its effectiveness for deployment in challenging urban environments. Our project is publicly available at https://github.com/EdwinTSalcedo/BLPR.
- Abstract(参考訳): 制約のない環境でのロバストなナンバープレートの認識は依然として重要な課題であり、特にボリビアのような限られたデータ可用性とユニークな視覚特性を持つ未表現領域では顕著である。
実世界の状況における認識精度は、照明の変化や視点歪みなどの要因によって劣化することが多い。
これらの課題に対処するために,ボリビアのライセンスプレートに特化して設計された,新しいディープラーニングベースのライセンスプレート検出・認識(LPDR)フレームワークであるBLPRを紹介した。
提案システムでは, ボリビアのラパスで収集された街路レベルのデータに基づいて, Blender で生成した合成データに基づいて YOLO ベースの検出器を事前学習し, 極端な視界と照明条件をシミュレートし, 微調整を行う2段階のパイプラインを追従する。
検出されたプレートは幾何学的に修正され、文字認識モデルに渡される。
曖昧なシナリオ下での堅牢性向上のために、信頼性に基づくフォールバック機構として軽量ビジョン言語モデル(Gemma3 4B)を選択的にトリガする。
提案フレームワークは, 実世界の多様な条件下での堅牢性向上のために, 合成ドメイン適応をさらに活用する。
また,Bolivian LPDRデータセットを初めて公開し,多様な視点と照明条件下での評価を可能にする。
このシステムは、実世界のデータに対して89.6%の文字レベルの認識精度を実現し、挑戦的な都市環境への展開の有効性を示す。
私たちのプロジェクトはhttps://github.com/EdwinTSalcedo/BLPR.comで公開されています。
関連論文リスト
- A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR [0.0]
複雑な文字スキームと不均一なレイアウトのため、バングラナンバープレートの検出は依然として困難である。
本稿では,ライセンスプレートの局所化のためのディープラーニングに基づくオブジェクト検出モデルと,テキスト抽出のための光文字認識を統合した,堅牢なBanglaライセンスプレート認識システムを提案する。
論文 参考訳(メタデータ) (2026-03-10T22:55:59Z) - Vision-Language Feature Alignment for Road Anomaly Segmentation [38.2615882515309]
本稿では,事前学習された視覚言語モデル(VLM)のセマンティクスを組み込んだ視覚言語異常セグメンテーションフレームワークを提案する。
具体的には,Mask2Formeの視覚的特徴を既知のカテゴリのCLIPテキスト埋め込みに適応させる,素早い学習駆動アライメントモジュールを設計する。
推論時に,テキスト誘導類似性,CLIPに基づく画像テキスト類似性,検出信頼度を統合したマルチソース推論戦略を導入する。
論文 参考訳(メタデータ) (2026-03-01T10:17:00Z) - Learning to Explore: Policy-Guided Outlier Synthesis for Graph Out-of-Distribution Detection [51.93878677594561]
教師なしグラフレベルのOOD検出では、モデルは通常、IDデータのみを使用して訓練される。
本稿では,スタティックスを学習した探索戦略に置き換える政策誘導型アウトリア合成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-28T11:40:18Z) - EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - Adaptive Dual-Weighting Framework for Federated Learning via Out-of-Distribution Detection [53.45696787935487]
Federated Learning (FL)は、大規模分散サービスノード間の協調的なモデルトレーニングを可能にする。
実世界のサービス指向デプロイメントでは、異種ユーザ、デバイス、アプリケーションシナリオによって生成されたデータは本質的にIIDではない。
FLoodは、オフ・オブ・ディストリビューション(OOD)検出にインスパイアされた新しいFLフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T05:54:59Z) - LuxDiT: Lighting Estimation with Video Diffusion Transformer [66.60450792095901]
単一の画像やビデオからシーンライティングを推定することは、コンピュータビジョンとグラフィックスにおいて長年の課題である。
本稿では,映像拡散変換器を微調整し,視覚入力を前提としたHDR環境マップを生成するLuxDiTを提案する。
論文 参考訳(メタデータ) (2025-09-03T19:59:20Z) - Low-Light Image Enhancement via Generative Perceptual Priors [75.01646333310073]
視覚言語モデル(VLM)を用いた新しいtextbfLLIE フレームワークを提案する。
まず、LL画像の複数の視覚特性を評価するためにVLMを誘導するパイプラインを提案し、その評価を定量化し、グローバルおよびローカルな知覚的先行情報を出力する。
LLIEを有効活用するために,これらの生成的知覚前駆体を組み込むため,拡散過程にトランスフォーマーベースのバックボーンを導入し,グローバルおよびローカルな知覚前駆体によってガイドされる新しい層正規化(textittextbfLPP-Attn)を開発する。
論文 参考訳(メタデータ) (2024-12-30T12:51:52Z) - A Dataset and Model for Realistic License Plate Deblurring [17.52035404373648]
ライセンスプレートブラ(LPBlur)と呼ばれる,最初の大規模ナンバープレートデブロアリングデータセットについて紹介する。
そこで我々は,ライセンスプレート・デブロアリングに対処するために,LPDGAN (L License Plate Deblurring Generative Adversarial Network) を提案する。
提案手法は,現実的なナンバープレートのデブロアリングシナリオにおいて,他の最先端の動作デブロアリング手法よりも優れる。
論文 参考訳(メタデータ) (2024-04-21T14:36:57Z) - End-to-End High Accuracy License Plate Recognition Based on Depthwise
Separable Convolution Networks [0.0]
ライセンスプレート認識のための新しいセグメンテーションフリーフレームワークを提案し,NP-ALPRデータセットを導入した。
提案するネットワークモデルは,最新のディープラーニング手法と最先端のアイデアと,新しいネットワークアーキテクチャのメリットで構成されている。
提案手法の有効性を3つの異なるデータセットで評価し,99%以上,70fps以上の認識精度を示した。
論文 参考訳(メタデータ) (2022-02-21T14:45:03Z) - A Robust Attentional Framework for License Plate Recognition in the Wild [95.7296788722492]
本稿では,ライセンスプレート認識のための堅牢なフレームワークを提案する。
ナンバープレート画像生成のためのCycleGANモデルと、プレート認識のための精巧な設計された画像系列ネットワークで構成されている。
われわれは、中国本土31州から1200枚の画像を含む新しいライセンスプレートデータセット「CLPD」をリリースした。
論文 参考訳(メタデータ) (2020-06-06T17:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。