論文の概要: License Plate Recognition Based On Multi-Angle View Model
- arxiv url: http://arxiv.org/abs/2309.12972v1
- Date: Fri, 22 Sep 2023 16:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 13:49:04.034437
- Title: License Plate Recognition Based On Multi-Angle View Model
- Title(参考訳): 多角ビューモデルに基づくライセンスプレート認識
- Authors: Dat Tran-Anh, Khanh Linh Tran, Hoai-Nam Vu
- Abstract要約: 本稿では,異なる視点の複数のフレームをマージすることで,ライセンスプレート内のテキスト検出の問題に対処する。
提案手法は,各視点において,ライセンスプレートのテキストコンポーネントを特徴付ける記述的特徴を抽出する。
我々はライセンスプレート内のテキスト認識にCnOCR法を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of research, the detection/recognition of text within
images/videos captured by cameras constitutes a highly challenging problem for
researchers. Despite certain advancements achieving high accuracy, current
methods still require substantial improvements to be applicable in practical
scenarios. Diverging from text detection in images/videos, this paper addresses
the issue of text detection within license plates by amalgamating multiple
frames of distinct perspectives. For each viewpoint, the proposed method
extracts descriptive features characterizing the text components of the license
plate, specifically corner points and area. Concretely, we present three
viewpoints: view-1, view-2, and view-3, to identify the nearest neighboring
components facilitating the restoration of text components from the same
license plate line based on estimations of similarity levels and distance
metrics. Subsequently, we employ the CnOCR method for text recognition within
license plates. Experimental results on the self-collected dataset
(PTITPlates), comprising pairs of images in various scenarios, and the publicly
available Stanford Cars Dataset, demonstrate the superiority of the proposed
method over existing approaches.
- Abstract(参考訳): 研究の領域では、カメラが捉えた画像やビデオ内のテキストの検出と認識が、研究者にとって非常に難しい問題となっている。
精度の高いある程度の進歩にもかかわらず、現在の手法は実際的なシナリオに適用するためにかなりの改善が必要である。
本稿では,画像・ビデオのテキスト検出から分岐して,異なる視点の複数のフレームをマージすることで,ライセンスプレート内のテキスト検出の問題に対処する。
提案手法は,各視点において,ライセンスプレートのテキストコンポーネント,特にコーナーポイントとエリアを特徴付ける記述的特徴を抽出する。
具体的には、類似度レベルと距離の測定値に基づいて、同一のナンバープレートラインからテキストコンポーネントの復元を容易にする最も近いコンポーネントを特定するために、 View-1, view-2, view-3 の3つの視点を示す。
その後,ライセンスプレート内のテキスト認識にcnocr方式を採用する。
様々なシナリオで画像のペアを構成する自己収集データセット(PTITPlates)と、利用可能なStanford Cars Datasetの実験結果から、提案手法が既存手法よりも優れていることを示す。
関連論文リスト
- Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting [11.705454066278898]
本稿では,新しい検出非依存のエンド・ツー・エンド認識フレームワークDEERを提案する。
提案手法は,検出モジュールと認識モジュール間の密接な依存関係を低減する。
通常のテキストスポッティングベンチマークと任意の形のテキストスポッティングベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T02:41:05Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - MT: Multi-Perspective Feature Learning Network for Scene Text Detection [9.282254601960613]
軽量検出フレームワークは、高い検出精度を維持しつつ推論プロセスを高速化するように設計されている。
マスクを正確にセグメンテーションするための識別表現をより正確に学習するために,マルチパースペクティブな特徴モジュールを提案する。
MTの有効性を実世界の4つのシーンテキストデータセットで評価した。
論文 参考訳(メタデータ) (2021-05-12T06:41:34Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。