論文の概要: A Training-Free Framework for Video License Plate Tracking and Recognition with Only One-Shot
- arxiv url: http://arxiv.org/abs/2408.05729v1
- Date: Sun, 11 Aug 2024 08:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:47:38.653100
- Title: A Training-Free Framework for Video License Plate Tracking and Recognition with Only One-Shot
- Title(参考訳): ワンショットのみによるビデオナンバープレート追跡・認識のための学習自由フレームワーク
- Authors: Haoxuan Ding, Qi Wang, Junyu Gao, Qiang Li,
- Abstract要約: OneShotLPは、ビデオベースのライセンスプレートの検出と認識のためのトレーニング不要のフレームワークである。
広範なトレーニングデータなしで効果的に機能する機能と、さまざまなライセンスプレートスタイルへの適応性を提供する。
これは、インテリジェントトランスポートシステムにおける多様な現実世界のアプリケーションに事前訓練されたモデルを活用する可能性を強調している。
- 参考スコア(独自算出の注目度): 25.032455444204466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional license plate detection and recognition models are often trained on closed datasets, limiting their ability to handle the diverse license plate formats across different regions. The emergence of large-scale pre-trained models has shown exceptional generalization capabilities, enabling few-shot and zero-shot learning. We propose OneShotLP, a training-free framework for video-based license plate detection and recognition, leveraging these advanced models. Starting with the license plate position in the first video frame, our method tracks this position across subsequent frames using a point tracking module, creating a trajectory of prompts. These prompts are input into a segmentation module that uses a promptable large segmentation model to generate local masks of the license plate regions. The segmented areas are then processed by multimodal large language models (MLLMs) for accurate license plate recognition. OneShotLP offers significant advantages, including the ability to function effectively without extensive training data and adaptability to various license plate styles. Experimental results on UFPR-ALPR and SSIG-SegPlate datasets demonstrate the superior accuracy of our approach compared to traditional methods. This highlights the potential of leveraging pre-trained models for diverse real-world applications in intelligent transportation systems. The code is available at https://github.com/Dinghaoxuan/OneShotLP.
- Abstract(参考訳): 従来のライセンスプレート検出と認識モデルは、しばしばクローズドデータセットでトレーニングされ、異なるリージョンにわたるさまざまなライセンスプレートフォーマットを扱う能力を制限する。
大規模な事前訓練モデルの出現は、例外的な一般化能力を示し、少数ショットとゼロショットの学習を可能にしている。
ビデオベースライセンスプレート検出および認識のためのトレーニングフリーフレームワークであるOneShotLPを提案する。
第1のビデオフレームにおけるナンバープレートの位置から始め,この位置を点追跡モジュールを用いて追跡し,プロンプトの軌跡を作成する。
これらのプロンプトは、プロンプト可能な大きなセグメンテーションモデルを使用して、ライセンスプレート領域のローカルマスクを生成するセグメンテーションモジュールに入力される。
セグメント化された領域は、正確なナンバープレート認識のためにマルチモーダル大言語モデル(MLLM)によって処理される。
OneShotLPには、広範なトレーニングデータなしで効果的に機能する機能や、さまざまなライセンスプレートスタイルへの適応性など、大きなメリットがある。
UFPR-ALPRとSSIG-SegPlateのデータセットによる実験結果は,従来の手法と比較して,我々のアプローチの精度が優れていることを示している。
これは、インテリジェントトランスポートシステムにおける多様な現実世界のアプリケーションに事前訓練されたモデルを活用する可能性を強調している。
コードはhttps://github.com/Dinghaoxuan/OneShotLPで公開されている。
関連論文リスト
- A Dataset and Model for Realistic License Plate Deblurring [17.52035404373648]
ライセンスプレートブラ(LPBlur)と呼ばれる,最初の大規模ナンバープレートデブロアリングデータセットについて紹介する。
そこで我々は,ライセンスプレート・デブロアリングに対処するために,LPDGAN (L License Plate Deblurring Generative Adversarial Network) を提案する。
提案手法は,現実的なナンバープレートのデブロアリングシナリオにおいて,他の最先端の動作デブロアリング手法よりも優れる。
論文 参考訳(メタデータ) (2024-04-21T14:36:57Z) - PlateSegFL: A Privacy-Preserving License Plate Detection Using Federated Segmentation Learning [0.0]
PlateSegFLがFederated Learning (FL)と共にU-Netベースのセグメンテーションを実装した
携帯電話のような様々なコンピューティングプラットフォームは、標準的な予測モデルの開発に協力することができる。
論文 参考訳(メタデータ) (2024-04-07T19:10:02Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。
大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。
局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文 参考訳(メタデータ) (2023-12-08T05:23:50Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - An advanced combination of semi-supervised Normalizing Flow & Yolo
(YoloNF) to detect and recognize vehicle license plates [1.5208105446192792]
本稿では、最先端のYOLOオブジェクト検出器と正規化フローに基づく、堅牢で効率的なALPRシステムを提案する。
まず、YOLOを用いた2段階ネットワークと正規化フローベースモデルを用いて、ライセンスプレート(LP)を検出し、数字とアラビア文字でLPを認識する。
論文 参考訳(メタデータ) (2022-07-21T22:22:57Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - A Robust Attentional Framework for License Plate Recognition in the Wild [95.7296788722492]
本稿では,ライセンスプレート認識のための堅牢なフレームワークを提案する。
ナンバープレート画像生成のためのCycleGANモデルと、プレート認識のための精巧な設計された画像系列ネットワークで構成されている。
われわれは、中国本土31州から1200枚の画像を含む新しいライセンスプレートデータセット「CLPD」をリリースした。
論文 参考訳(メタデータ) (2020-06-06T17:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。