論文の概要: Advancing Vehicle Plate Recognition: Multitasking Visual Language Models with VehiclePaliGemma
- arxiv url: http://arxiv.org/abs/2412.14197v1
- Date: Sat, 14 Dec 2024 16:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:55.560764
- Title: Advancing Vehicle Plate Recognition: Multitasking Visual Language Models with VehiclePaliGemma
- Title(参考訳): VehiclePaliGemmaを用いたマルチタスク視覚言語モデルによる車両プレート認識
- Authors: Nouar AlDahoul, Myles Joshua Toledo Tan, Raghava Reddy Tera, Hezerul Abdul Karim, Chee How Lim, Manish Kumar Mishra, Yasir Zaki,
- Abstract要約: ライセンスプレート認識(LPR)は、カメラとコンピュータビジョンを利用して車両のナンバープレートを読む自動システムである。
既存のLPR法は、特に歪んだ画像に対して、大きな改善を必要としている。
我々は,OpenAI GPT4o, Google Gemini 1.5, Google PaliGemma (Pathways Language and Image Model + Gemma model), Meta Llama 3.2, Anthropic Claude 3.5 Sonnet, LLaVA, NVIDIA VILA, moondream2 などの視覚言語モデル(VLM)を活用して,近い文字を持つ不明瞭なプレートを認識することを提案する。
- 参考スコア(独自算出の注目度): 0.11726720776908521
- License:
- Abstract: License plate recognition (LPR) involves automated systems that utilize cameras and computer vision to read vehicle license plates. Such plates collected through LPR can then be compared against databases to identify stolen vehicles, uninsured drivers, crime suspects, and more. The LPR system plays a significant role in saving time for institutions such as the police force. In the past, LPR relied heavily on Optical Character Recognition (OCR), which has been widely explored to recognize characters in images. Usually, collected plate images suffer from various limitations, including noise, blurring, weather conditions, and close characters, making the recognition complex. Existing LPR methods still require significant improvement, especially for distorted images. To fill this gap, we propose utilizing visual language models (VLMs) such as OpenAI GPT4o, Google Gemini 1.5, Google PaliGemma (Pathways Language and Image model + Gemma model), Meta Llama 3.2, Anthropic Claude 3.5 Sonnet, LLaVA, NVIDIA VILA, and moondream2 to recognize such unclear plates with close characters. This paper evaluates the VLM's capability to address the aforementioned problems. Additionally, we introduce ``VehiclePaliGemma'', a fine-tuned Open-sourced PaliGemma VLM designed to recognize plates under challenging conditions. We compared our proposed VehiclePaliGemma with state-of-the-art methods and other VLMs using a dataset of Malaysian license plates collected under complex conditions. The results indicate that VehiclePaliGemma achieved superior performance with an accuracy of 87.6\%. Moreover, it is able to predict the car's plate at a speed of 7 frames per second using A100-80GB GPU. Finally, we explored the multitasking capability of VehiclePaliGemma model to accurately identify plates containing multiple cars of various models and colors, with plates positioned and oriented in different directions.
- Abstract(参考訳): ライセンスプレート認識(LPR)は、カメラとコンピュータビジョンを利用して車両のナンバープレートを読む自動システムである。
LPRを通じて収集されたこれらのプレートをデータベースと比較して、盗難車両、保険のないドライバー、犯罪容疑者などを特定することができる。
LPRシステムは、警察などの機関の時間節約に重要な役割を果たしている。
これまで、LPRは画像中の文字を認識するために広く研究されてきた光学文字認識(OCR)に大きく依存していた。
通常、収集されたプレート画像は、ノイズ、ぼやけ、天候条件、クローズキャラクタなどの様々な制限に悩まされ、認識が複雑になる。
既存のLPR法は、特に歪んだ画像に対して、大きな改善を必要としている。
このギャップを埋めるために,OpenAI GPT4o, Google Gemini 1.5, Google PaliGemma (Pathways Language and Image Model + Gemma model), Meta Llama 3.2, Anthropic Claude 3.5 Sonnet, LLaVA, NVIDIA VILA, Moondream2といったビジュアル言語モデル(VLM)を用いて,近い文字を持つ不明瞭なプレートを認識することを提案する。
本稿では、上記の問題に対処するVLMの能力を評価する。
VehiclePaliGemma'は,挑戦的な条件下でプレートを認識するように設計されたオープンソースPaliGemma VLMである。
複雑な条件下で収集したマレーシアのライセンスプレートのデータセットを用いて,提案したVabyPaliGemmaと最先端のVLMとを比較した。
結果,VabyPaliGemmaは87.6\%の精度で優れた性能を示した。
さらに、A100-80GB GPUを使用して、毎秒7フレームの速度で車のプレートを予測することができる。
最後に,VagerPaliGemmaモデルのマルチタスク機能について検討し,様々なモデルとカラーの複数の車両を含むプレートを,異なる方向の位置と方向で正確に識別する方法について検討した。
関連論文リスト
- Efficient Video-Based ALPR System Using YOLO and Visual Rhythm [0.36832029288386137]
車両1台あたり1フレームを正確に抽出し,この特異画像からナンバープレート文字を認識できるシステムを提案する。
初期の実験では、この手法が有効であることが示されている。
論文 参考訳(メタデータ) (2025-01-04T12:15:58Z) - PaliGemma 2: A Family of Versatile VLMs for Transfer [48.68777561571185]
PaliGemma 2 は Gemma 2 の言語モデルに基づいた PaliGemma Open Vision-Language Model (VLM) のアップグレードである。
私たちは、PaliGemmaが使用していたSigLIP-So400mビジョンエンコーダと、2Bモデルから27Bモデルまで、Gemma 2の全モデルを組み合わせています。
これらのモデルを複数の段階で3つの解像度(224px, 448px, 896px)でトレーニングし, 微調整による転送の知識を広く確保する。
論文 参考訳(メタデータ) (2024-12-04T18:50:42Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Bengali License Plate Recognition: Unveiling Clarity with CNN and
GFP-GAN [0.0]
LPRは、車両ナンバープレートから自動的にデータを読み取り、抽出するシステムである。
この計画のために1292枚のベンガル数字と文字のデータセットが準備された。
論文 参考訳(メタデータ) (2023-12-17T12:28:30Z) - Character Time-series Matching For Robust License Plate Recognition [0.0]
本稿では,複数のフレームにおけるナンバープレートの追跡により,ナンバープレートの認識精度を向上させる手法を提案する。
まず、検出されたナンバープレートを正しく整列するために、Adaptive License Plate Rotationアルゴリズムを適用する。
第二に、多くの結果フレームからライセンスプレート文字を認識するための文字時系列マッチング法を提案する。
論文 参考訳(メタデータ) (2023-07-21T03:50:23Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Indian Commercial Truck License Plate Detection and Recognition for
Weighbridge Automation [0.0]
本稿では,商用トラックナンバープレートのデータベースと,リアルタイムオブジェクト検出における最先端モデルの利用について述べる。
提案したライセンスプレートデータセットのアルゴリズム実装において,95.82%の精度を達成した。
論文 参考訳(メタデータ) (2022-11-23T18:28:12Z) - YOLO and Mask R-CNN for Vehicle Number Plate Identification [0.0]
The proposed Mask R-CNN method has achieved significant progress in character recognition。
オープンデータプレート収集で提示される方法論は他の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-26T19:41:59Z) - A Robust Attentional Framework for License Plate Recognition in the Wild [95.7296788722492]
本稿では,ライセンスプレート認識のための堅牢なフレームワークを提案する。
ナンバープレート画像生成のためのCycleGANモデルと、プレート認識のための精巧な設計された画像系列ネットワークで構成されている。
われわれは、中国本土31州から1200枚の画像を含む新しいライセンスプレートデータセット「CLPD」をリリースした。
論文 参考訳(メタデータ) (2020-06-06T17:11:52Z) - The Devil is in the Details: Self-Supervised Attention for Vehicle
Re-Identification [75.3310894042132]
車両識別のための自己監督的注意(SAVER)は、車両固有の識別特徴を効果的に学習するための新しいアプローチである。
我々は,SAVERがVeRi, VehicleID, Vehicle-1M, VERI-Wildのデータセットに挑戦する際の最先端性を改善することを示す。
論文 参考訳(メタデータ) (2020-04-14T02:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。