論文の概要: Do We Train on Test Data? The Impact of Near-Duplicates on License Plate
Recognition
- arxiv url: http://arxiv.org/abs/2304.04653v1
- Date: Mon, 10 Apr 2023 15:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:31:54.055867
- Title: Do We Train on Test Data? The Impact of Near-Duplicates on License Plate
Recognition
- Title(参考訳): テストデータでトレーニングするのか?
ナンバープレート認識における近接デュプリケートの影響
- Authors: Rayson Laroca, Valter Estevam, Alceu S. Britto Jr., Rodrigo Minetto,
David Menotti
- Abstract要約: この研究は、ライセンスプレート認識(LPR)研究で広く採用されているデータセットのトレーニングとテストセットにおいて、ほとんど重複している部分に注意を向けている。
この分野で最も人気のある2つのデータセットを用いて実験を行ったところ、6つの有名なモデルが公正な分割の下でトレーニングされ、テストされると、認識率が大幅に低下することがわかった。
これらの重複は,LPRの深層学習モデルの評価と開発に大きく偏っていることが示唆された。
- 参考スコア(独自算出の注目度): 4.6425780769024945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work draws attention to the large fraction of near-duplicates in the
training and test sets of datasets widely adopted in License Plate Recognition
(LPR) research. These duplicates refer to images that, although different, show
the same license plate. Our experiments, conducted on the two most popular
datasets in the field, show a substantial decrease in recognition rate when six
well-known models are trained and tested under fair splits, that is, in the
absence of duplicates in the training and test sets. Moreover, in one of the
datasets, the ranking of models changed considerably when they were trained and
tested under duplicate-free splits. These findings suggest that such duplicates
have significantly biased the evaluation and development of deep learning-based
models for LPR. The list of near-duplicates we have found and proposals for
fair splits are publicly available for further research at
https://raysonlaroca.github.io/supp/lpr-train-on-test/
- Abstract(参考訳): この研究は、ライセンスプレート認識(LPR)研究で広く採用されているデータセットのトレーニングとテストセットにおいて、ほとんど重複している部分に注意を向けている。
これらの複製は、異なるものの同じライセンスプレートを示す画像を指す。
私たちの実験は、この分野で最も人気のある2つのデータセットで行われ、6つのよく知られたモデルがフェアスプリットの下でトレーニングされテストされた場合、認識率が大幅に低下することを示しています。
さらに、データセットの1つでは、モデルのランクが、重複のない分割の下でトレーニングおよびテストされた時に大きく変化した。
これらの重複は,LPRの深層学習モデルの評価と開発に大きく偏っていることが示唆された。
我々が見つけたほぼ重複点のリストと公平な分割の提案は、https://raysonlaroca.github.io/supp/lpr-train-on-test/でさらなる研究のために公開されている。
関連論文リスト
- Language model developers should report train-test overlap [52.523638165129505]
30人のモデル開発者のプラクティスを文書化して、トレイン-テストの重複を報告しているのは9人だけです。
私たちの仕事は、モデル評価に対するコミュニティ全体の信頼を高めるために、電車とテストの重複に対する透明性を高めることを願っています。
論文 参考訳(メタデータ) (2024-10-10T21:44:56Z) - Localization Is All You Evaluate: Data Leakage in Online Mapping Datasets and How to Fix It [2.1665407462280446]
State-of-the-artメソッドは主にnuScenesとArgoverse 2データセットを使用してトレーニングされている。
nuScenesの80ドル以上、Argoverse 2のバリデーションとテストサンプルの40ドル以上は、トレーニングサンプルから5ドル以下である。
本研究では,地理的に不連続なデータ分割を提案し,未知の環境における真の性能を明らかにする。
論文 参考訳(メタデータ) (2023-12-11T14:43:23Z) - Leveraging Model Fusion for Improved License Plate Recognition [3.049664973023939]
複数のモデルを使用すると、特定のデータセット/シナリオのサブパーパフォーマンスが低下する。
実験には幅広いデータセットが含まれており、イントラおよびクロスデータセットのセットアップにおいて、融合アプローチの実質的な利点が明らかにされている。
認識タスクが余分な時間で許容できるアプリケーションの場合、効果的な戦略は4-6モデルを組み合わせることである。
論文 参考訳(メタデータ) (2023-09-08T13:55:16Z) - A First Look at Dataset Bias in License Plate Recognition [1.8496815029347666]
データセットバイアスは コンピュータビジョンのコミュニティで 深刻な問題と認識されています
本稿では,ライセンスプレート認識におけるデータセットバイアス問題について検討する。
論文 参考訳(メタデータ) (2022-08-23T00:20:33Z) - An advanced combination of semi-supervised Normalizing Flow & Yolo
(YoloNF) to detect and recognize vehicle license plates [1.5208105446192792]
本稿では、最先端のYOLOオブジェクト検出器と正規化フローに基づく、堅牢で効率的なALPRシステムを提案する。
まず、YOLOを用いた2段階ネットワークと正規化フローベースモデルを用いて、ライセンスプレート(LP)を検出し、数字とアラビア文字でLPを認識する。
論文 参考訳(メタデータ) (2022-07-21T22:22:57Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - On the Cross-dataset Generalization in License Plate Recognition [1.8514314381314887]
12のOCRモデルのクロスデータセット一般化を実証的に評価するために,従来の分割対1データセットアウトの実験的なセットアップを提案する。
その結果、ALPRコンテキストにおけるアプローチを評価するために、従来の分割プロトコルの制限に光を当てた。
論文 参考訳(メタデータ) (2022-01-02T00:56:09Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。