論文の概要: Iranis: A Large-scale Dataset of Farsi License Plate Characters
- arxiv url: http://arxiv.org/abs/2101.00295v1
- Date: Fri, 1 Jan 2021 18:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 10:35:28.497100
- Title: Iranis: A Large-scale Dataset of Farsi License Plate Characters
- Title(参考訳): イラン:farsiライセンスプレート文字の大規模データセット
- Authors: Ali Tourani, Sajjad Soroori, Asadollah Shahbahrami, and Alireza
Akoushideh
- Abstract要約: 本稿ではイランの自動車ナンバープレートで使用される数字と文字の画像を含む大規模データセットを提案する。
カメラ撮影角度、照明、解像度、コントラストのさまざまなインスタンスは、データセットをディープラーニングシステムのトレーニングに適した選択にします。
- 参考スコア(独自算出の注目度): 2.537406035246369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Providing huge amounts of data is a fundamental demand when dealing with Deep
Neural Networks (DNNs). Employing these algorithms to solve computer vision
problems resulted in the advent of various image datasets to feed the most
common visual imagery deep structures, known as Convolutional Neural Networks
(CNNs). In this regard, some datasets can be found that contain hundreds or
even thousands of images for license plate detection and optical character
recognition purposes. However, no publicly available image dataset provides
such data for the recognition of Farsi characters used in car license plates.
The gap has to be filled due to the numerous advantages of developing accurate
deep learning-based systems for law enforcement and surveillance purposes. This
paper introduces a large-scale dataset that includes images of numbers and
characters used in Iranian car license plates. The dataset, named Iranis,
contains more than 83,000 images of Farsi numbers and letters collected from
real-world license plate images captured by various cameras. The variety of
instances in terms of camera shooting angle, illumination, resolution, and
contrast make the dataset a proper choice for training DNNs. Dataset images are
manually annotated for object detection and image classification. Finally, and
to build a baseline for Farsi character recognition, the paper provides a
performance analysis using a YOLO v.3 object detector.
- Abstract(参考訳): 大量のデータを提供することは、ディープニューラルネットワーク(DNN)を扱う場合の基本的要求である。
コンピュータビジョン問題を解決するためにこれらのアルゴリズムを用いると、畳み込みニューラルネットワーク(cnns)として知られる最も一般的な視覚画像深層構造を供給するための様々な画像データセットが出現した。
この点に関して、ライセンスプレートの検出と光学的文字認識のために、数百から数千の画像を含むデータセットがある。
しかしながら、自動車ナンバープレートで使用されるFarsi文字の認識のために、一般に利用可能な画像データセットは提供されていない。
このギャップを埋めるには、法執行や監視目的で正確なディープラーニングベースのシステムを開発する多くの利点がある。
本稿ではイランの自動車ナンバープレートで使用される数字と文字の画像を含む大規模データセットを提案する。
イラン名のこのデータセットには、Farsiの数字と、さまざまなカメラが捉えた現実世界のナンバープレート画像から集めた文字が83,000枚以上含まれている。
カメラの撮影角度、照明、解像度、コントラストといった点では、データセットはdnnのトレーニングに適した選択となる。
オブジェクト検出と画像分類のためにデータセットイメージを手動で注釈付けする。
最後に,Farsi文字認識のためのベースラインを構築するために,YOLO v.3オブジェクト検出器を用いた性能解析を行った。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - From Pixels to Prose: A Large Dataset of Dense Image Captions [76.97493750144812]
PixelProseは、合成されたキャプション16万あまりの包括的データセットである。
データ整合性を確保するため、問題のあるコンテンツのデータセットを厳格に分析します。
また、透かしの存在や美的スコアなどの貴重なメタデータも提供します。
論文 参考訳(メタデータ) (2024-06-14T17:59:53Z) - Efficient Deduplication and Leakage Detection in Large Scale Image
Datasets with a focus on the CrowdAI Mapping Challenge Dataset [5.149242555705579]
本稿では,知覚的ハッシュ技術を用いて効率的にデータセットを複製するドロップインパイプラインを提案する。
実験では,トレーニング分割中の250k($ sim $90%)近い画像が同一であることを示した。
その結果,60k画像の約56kがトレーニングスプリットに表示され,データ漏洩は93%であった。
論文 参考訳(メタデータ) (2023-04-05T08:36:17Z) - HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D
Images [58.720142291102135]
本稿では,屋内環境における視覚的位置認識能力の探索を目的とした,HPointLocという新しいデータセットを提案する。
データセットは人気のあるHabitatシミュレータに基づいており、独自のセンサーデータとオープンデータセットの両方を使用して屋内シーンを生成することができる。
論文 参考訳(メタデータ) (2022-12-30T12:20:56Z) - IR-LPR: Large Scale of Iranian License Plate Recognition Dataset [0.0]
我々は,20,967台の車両画像を含む全データセットと,ライセンスプレートとその文字全体の検出アノテーションを作成した。
ライセンスプレートの文字を認識するためのイラン最大のデータセットには5,000の画像がある。
論文 参考訳(メタデータ) (2022-09-10T14:41:59Z) - A large scale multi-view RGBD visual affordance learning dataset [4.3773754388936625]
大規模マルチビューRGBDビジュアルアプライアンス学習データセットを提案する。
これは、初めてかつ最大のマルチビューRGBDビジュアルアプライアンス学習データセットである。
いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。
論文 参考訳(メタデータ) (2022-03-26T14:31:35Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Six-channel Image Representation for Cross-domain Object Detection [17.854940064699985]
ディープラーニングモデルはデータ駆動であり、優れたパフォーマンスは豊富で多様なデータセットに依存する。
いくつかの画像から画像への翻訳技術は、モデルを訓練するために特定のシーンの偽データを生成するために用いられる。
3チャンネル画像とそのgan生成した偽画像に刺激を与え,データセットの6チャンネル表現を作成することを提案する。
論文 参考訳(メタデータ) (2021-01-03T04:50:03Z) - Robust Image Retrieval-based Visual Localization using Kapture [10.249293519246478]
視覚的ローカライゼーションのための多用途パイプラインを提案する。
8つの公開データセットで評価し、それらが上位にランクされ、その多くが上位にランクされている。
今後の研究を促進するため、我々は、BSDライセンス下でオープンソースであるKaptureフォーマットで、コード、モデル、およびすべてのデータセットをリリースする。
論文 参考訳(メタデータ) (2020-07-27T21:10:35Z) - A Robust Attentional Framework for License Plate Recognition in the Wild [95.7296788722492]
本稿では,ライセンスプレート認識のための堅牢なフレームワークを提案する。
ナンバープレート画像生成のためのCycleGANモデルと、プレート認識のための精巧な設計された画像系列ネットワークで構成されている。
われわれは、中国本土31州から1200枚の画像を含む新しいライセンスプレートデータセット「CLPD」をリリースした。
論文 参考訳(メタデータ) (2020-06-06T17:11:52Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。