論文の概要: Video-based Vehicle Surveillance in the Wild: License Plate, Make, and Model Recognition with Self Reflective Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.01387v1
- Date: Sat, 02 Aug 2025 14:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.854986
- Title: Video-based Vehicle Surveillance in the Wild: License Plate, Make, and Model Recognition with Self Reflective Vision-Language Models
- Title(参考訳): 野生におけるビデオベース車両サーベイランス:自己反射型視覚言語モデルによるライセンスプレート, メイク, モデル認識
- Authors: Pouya Parsa, Keya Li, Kara M. Kockelman, Seongjin Choi,
- Abstract要約: 自動ナンバープレート認識(ALPR)のための大規模視覚言語モデル(VLM)の可能性について検討する。
提案したナンバープレート認識パイプラインフィルタをシャープフレームに送信し,複数のプロンプト戦略を用いてマルチモーダルプロンプトをVLMに送信する。
テキサス大学オースティン校のキャンパスで収集されたスマートフォンのデータセットの実験では、ALPRが91.67%、メイクとモデル認識が66.67%というトップ1の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic license plate recognition (ALPR) and vehicle make and model recognition underpin intelligent transportation systems, supporting law enforcement, toll collection, and post-incident investigation. Applying these methods to videos captured by handheld smartphones or non-static vehicle-mounted cameras presents unique challenges compared to fixed installations, including frequent camera motion, varying viewpoints, occlusions, and unknown road geometry. Traditional ALPR solutions, dependent on specialized hardware and handcrafted OCR pipelines, often degrade under these conditions. Recent advances in large vision-language models (VLMs) enable direct recognition of textual and semantic attributes from arbitrary imagery. This study evaluates the potential of VLMs for ALPR and makes and models recognition using monocular videos captured with handheld smartphones and non-static mounted cameras. The proposed license plate recognition pipeline filters to sharp frames, then sends a multimodal prompt to a VLM using several prompt strategies. Make and model recognition pipeline runs the same VLM with a revised prompt and an optional self-reflection module. In the self-reflection module, the model contrasts the query image with a reference from a 134-class dataset, correcting mismatches. Experiments on a smartphone dataset collected on the campus of the University of Texas at Austin, achieve top-1 accuracies of 91.67% for ALPR and 66.67% for make and model recognition. On the public UFPR-ALPR dataset, the approach attains 83.05% and 61.07%, respectively. The self-reflection module further improves results by 5.72% on average for make and model recognition. These findings demonstrate that VLMs provide a cost-effective solution for scalable, in-motion traffic video analysis.
- Abstract(参考訳): 自動ナンバープレート認識(ALPR)と車両製造およびモデル認識は、法執行、料金徴収、事故後調査をサポートするインテリジェント交通システムを支える。
ハンドヘルドスマートフォンや非静的車載カメラで撮影されたビデオにこれらの手法を適用すると、カメラの動きの頻繁さ、視点の変化、閉塞、未知の道路形状など、固定された設置方法と比較して、ユニークな課題が現れる。
従来のALPRソリューションは特殊なハードウェアと手作りのOCRパイプラインに依存しており、これらの条件下では劣化することが多い。
大規模視覚言語モデル(VLM)の最近の進歩は、任意の画像からテキスト属性と意味属性を直接認識することを可能にする。
本研究は、ALPR用VLMの可能性を評価し、ハンドヘルドスマートフォンと非静電マウントカメラで撮影されたモノクロビデオを用いて、認識とモデルを作成する。
提案したナンバープレート認識パイプラインフィルタをシャープフレームに送信し,複数のプロンプト戦略を用いてマルチモーダルプロンプトをVLMに送信する。
作成およびモデル認識パイプラインは、修正プロンプトとオプションのセルフリフレクションモジュールで同じVLMを実行する。
自己回帰モジュールでは、クエリイメージと134クラスのデータセットの参照を対比し、ミスマッチを修正する。
テキサス大学オースティン校のキャンパスで収集されたスマートフォンのデータセットの実験では、ALPRが91.67%、メイクとモデル認識が66.67%というトップ1の精度を達成した。
パブリックなUFPR-ALPRデータセットでは、それぞれ83.05%と61.07%に達する。
自己反射モジュールは、メイクおよびモデル認識のための平均5.72%の結果をさらに改善する。
これらの結果から,VLMはスケーラブルなインモーション・トラヒック・ビデオ解析のためのコスト効率の高いソリューションであることがわかった。
関連論文リスト
- Efficient Video-Based ALPR System Using YOLO and Visual Rhythm [0.36832029288386137]
車両1台あたり1フレームを正確に抽出し,この特異画像からナンバープレート文字を認識できるシステムを提案する。
初期の実験では、この手法が有効であることが示されている。
論文 参考訳(メタデータ) (2025-01-04T12:15:58Z) - A Training-Free Framework for Video License Plate Tracking and Recognition with Only One-Shot [25.032455444204466]
OneShotLPは、ビデオベースのライセンスプレートの検出と認識のためのトレーニング不要のフレームワークである。
広範なトレーニングデータなしで効果的に機能する機能と、さまざまなライセンスプレートスタイルへの適応性を提供する。
これは、インテリジェントトランスポートシステムにおける多様な現実世界のアプリケーションに事前訓練されたモデルを活用する可能性を強調している。
論文 参考訳(メタデータ) (2024-08-11T08:42:02Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Real Time Human Detection by Unmanned Aerial Vehicles [0.0]
公安のための重要な2つのデータソースは、無人航空機(UAV)によって生成された熱赤外(TIR)リモートセンシング写真とビデオである。
ターゲットの小型化,複雑なシーン情報,視聴可能なビデオに対する低解像度化,ラベル付きデータセットやトレーニングモデルのデジェスなどにより,オブジェクト検出は依然として困難である。
本研究では,写真やビデオのためのUAV TIRオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-06T18:28:01Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - A Quality Index Metric and Method for Online Self-Assessment of
Autonomous Vehicles Sensory Perception [164.93739293097605]
本稿では,検出品質指標(DQI)と呼ばれる新しい評価指標を提案し,カメラを用いた物体検出アルゴリズムの性能を評価する。
我々は,提案したDQI評価指標を予測するために,原画像画素とスーパーピクセルを入力として利用するスーパーピクセルベースのアテンションネットワーク(SPA-NET)を開発した。
論文 参考訳(メタデータ) (2022-03-04T22:16:50Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - End-to-End License Plate Recognition Pipeline for Real-time Low Resource
Video Based Applications [0.43012765978447565]
リアルタイムの推論速度を実現するために、Vision APIと組み合わせた新しい2段階検出パイプラインを提案する。
私たちは、画像データセットと、野生のライセンスプレートを含むビデオデータセットに基づいて、モデルをトレーニングしました。
実時間処理速度(毎秒27.2フレーム)で妥当な検出・認識性能を観測した。
論文 参考訳(メタデータ) (2021-08-18T18:31:01Z) - Towards Autonomous Driving: a Multi-Modal 360$^{\circ}$ Perception
Proposal [87.11988786121447]
本稿では,自動運転車の3次元物体検出と追跡のためのフレームワークを提案する。
このソリューションは、新しいセンサ融合構成に基づいて、正確で信頼性の高い道路環境検出を提供する。
自動運転車に搭載されたシステムの様々なテストは、提案された知覚スタックの適合性を評価することに成功している。
論文 参考訳(メタデータ) (2020-08-21T20:36:21Z) - An LSTM-Based Autonomous Driving Model Using Waymo Open Dataset [7.151393153761375]
本稿では,短期記憶モデル(LSTM)を用いた自律走行モデルの動作を模倣する手法を提案する。
実験結果から,本モデルは動作予測においていくつかのモデルより優れることがわかった。
論文 参考訳(メタデータ) (2020-02-14T05:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。