論文の概要: Layout-Independent License Plate Recognition via Integrated Vision and Language Models
- arxiv url: http://arxiv.org/abs/2510.10533v1
- Date: Sun, 12 Oct 2025 10:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.994311
- Title: Layout-Independent License Plate Recognition via Integrated Vision and Language Models
- Title(参考訳): 統合視覚と言語モデルを用いたレイアウト非依存型ライセンスプレート認識
- Authors: Elham Shabaninia, Fatemeh Asadi-zeydabadi, Hossein Nezamabadi-pour,
- Abstract要約: 自動ナンバープレート認識(ALPR)のためのパターン認識フレームワークを提案する。
多様なプレートレイアウトを確実に運用し、現実の環境に挑戦するように設計されている。
実験により,最近のセグメンテーションフリーアプローチと比較して精度とロバスト性が向上した。
- 参考スコア(独自算出の注目度): 6.302166748545872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a pattern-aware framework for automatic license plate recognition (ALPR), designed to operate reliably across diverse plate layouts and challenging real-world conditions. The proposed system consists of a modern, high-precision detection network followed by a recognition stage that integrates a transformer-based vision model with an iterative language modelling mechanism. This unified recognition stage performs character identification and post-OCR refinement in a seamless process, learning the structural patterns and formatting rules specific to license plates without relying on explicit heuristic corrections or manual layout classification. Through this design, the system jointly optimizes visual and linguistic cues, enables iterative refinement to improve OCR accuracy under noise, distortion, and unconventional fonts, and achieves layout-independent recognition across multiple international datasets (IR-LPR, UFPR-ALPR, AOLP). Experimental results demonstrate superior accuracy and robustness compared to recent segmentation-free approaches, highlighting how embedding pattern analysis within the recognition stage bridges computer vision and language modelling for enhanced adaptability in intelligent transportation and surveillance applications.
- Abstract(参考訳): 本研究は,多種多様なプレートレイアウトを確実に運用し,現実の環境に挑戦するために設計された,自動ナンバープレート認識(ALPR)のためのパターン認識フレームワークを提案する。
提案システムは,トランスフォーマに基づく視覚モデルと反復言語モデリング機構を融合した,近代的高精度検出ネットワークと認識段階から構成される。
この統合認識段階は、文字識別と後OCR修正をシームレスなプロセスで実行し、明示的なヒューリスティック補正や手動レイアウト分類に頼ることなく、ライセンスプレート特有の構造パターンとフォーマット規則を学習する。
この設計により、視覚的および言語的手がかりを共同で最適化し、ノイズ、歪み、非伝統的なフォントの下でのOCRの精度を反復的に改善し、複数の国際データセット(IR-LPR、UFPR-ALPR、AOLP)でレイアウトに依存しない認識を実現する。
実験の結果,近年のセグメンテーションフリーアプローチと比較して精度とロバスト性は優れており,認識ステージへの埋め込みパターン解析は,インテリジェントトランスポートおよび監視アプリケーションにおける適応性向上のために,コンピュータビジョンと言語モデリングを橋渡しする。
関連論文リスト
- Look before Transcription: End-to-End SlideASR with Visually-Anchored Policy Optimization [28.984638316524464]
モデル推論過程を制御するために,ビジュアルアンコールポリシー最適化(VAPO)を提案する。
VAPO は think>answer> フォーマットを使用して構造化された "Look before Transcription" プロシージャを強制する。
この推論プロセスは、フォーマットコンプライアンス、OCR精度、ASR品質、視覚的アンカー一貫性を目標とした4つの異なる報酬を含む強化学習によって最適化される。
論文 参考訳(メタデータ) (2025-10-08T08:18:47Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。
本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文 参考訳(メタデータ) (2024-11-08T15:50:30Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - Towards Auto-Modeling of Formal Verification for NextG Protocols: A
Multimodal cross- and self-attention Large Language Model Approach [3.9155346446573502]
本稿では,5GおよびNextGプロトコル(AVRE)のための実世界プロンプトを用いた形式検証の自動モデリングを提案する。
AVREは次世代通信プロトコル(NextG)の正式な検証のために設計された新しいシステムである。
論文 参考訳(メタデータ) (2023-12-28T20:41:24Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。