論文の概要: From Label Error Detection to Correction: A Modular Framework and Benchmark for Object Detection Datasets
- arxiv url: http://arxiv.org/abs/2508.06556v1
- Date: Wed, 06 Aug 2025 10:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.434454
- Title: From Label Error Detection to Correction: A Modular Framework and Benchmark for Object Detection Datasets
- Title(参考訳): ラベル誤り検出から補正へ:オブジェクト検出データセットのためのモジュールフレームワークとベンチマーク
- Authors: Sarina Penquitt, Jonathan Klees, Rinor Cakaj, Daniel Kondermann, Matthias Rottmann, Lars Schmarje,
- Abstract要約: ラベルエラー訂正のための半自動フレームワークREC$checkmark$D(リチェック)を導入する。
現在のラベル誤り検出手法は,修正フレームワークと組み合わせることで,人間がアノテートボックスをスクラッチからアノテートするのに要する時間に数百のエラーを回復できることを示す。
この検証されたセットは、ラベルエラーの検出と修正のための新しい実世界のベンチマークとしてリリースされる。
- 参考スコア(独自算出の注目度): 4.864032555684836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection has advanced rapidly in recent years, driven by increasingly large and diverse datasets. However, label errors, defined as missing labels, incorrect classification or inaccurate localization, often compromise the quality of these datasets. This can have a significant impact on the outcomes of training and benchmark evaluations. Although several methods now exist for detecting label errors in object detection datasets, they are typically validated only on synthetic benchmarks or limited manual inspection. How to correct such errors systemically and at scale therefore remains an open problem. We introduce a semi-automated framework for label-error correction called REC$\checkmark$D (Rechecked). Building on existing detectors, the framework pairs their error proposals with lightweight, crowd-sourced microtasks. These tasks enable multiple annotators to independently verify each candidate bounding box, and their responses are aggregated to estimate ambiguity and improve label quality. To demonstrate the effectiveness of REC$\checkmark$D, we apply it to the class pedestrian in the KITTI dataset. Our crowdsourced review yields high-quality corrected annotations, which indicate a rate of at least 24% of missing and inaccurate annotations in original annotations. This validated set will be released as a new real-world benchmark for label error detection and correction. We show that current label error detection methods, when combined with our correction framework, can recover hundreds of errors in the time it would take a human to annotate bounding boxes from scratch. However, even the best methods still miss up to 66% of the true errors and with low quality labels introduce more errors than they find. This highlights the urgent need for further research, now enabled by our released benchmark.
- Abstract(参考訳): オブジェクト検出は、ますます大きく多様なデータセットによって推進され、近年急速に進歩している。
しかし、ラベルエラーは、ラベルの欠落、不正確な分類、または不正確なローカライゼーションとして定義され、しばしばこれらのデータセットの品質を損なう。
これはトレーニングの結果とベンチマーク評価に大きな影響を与える可能性がある。
現在、オブジェクト検出データセットのラベルエラーを検出する方法はいくつか存在するが、一般的には、合成ベンチマークや限られた手動検査でのみ検証されている。
このようなエラーを体系的かつ大規模に修正する方法は、依然として未解決の問題である。
本稿では,ラベルエラー訂正のための半自動フレームワークREC$\checkmark$D(Rechecked)を提案する。
既存の検出器に基づいて構築されたこのフレームワークは、彼らのエラー提案と、軽量でクラウドソースのマイクロタスクを組み合わせている。
これらのタスクにより、複数のアノテータがそれぞれの候補境界ボックスを独立して検証することができ、その応答はあいまいさを推定し、ラベルの品質を改善するために集約される。
REC$\checkmark$Dの有効性を示すために、KITTIデータセットのクラス歩行者に適用する。
クラウドソースによるレビューでは、高品質な修正アノテーションが得られます。これは、オリジナルのアノテーションに欠落した、不正確なアノテーションの少なくとも24%の率を示しています。
この検証されたセットは、ラベルエラーの検出と修正のための新しい実世界のベンチマークとしてリリースされる。
現在のラベル誤り検出手法は,修正フレームワークと組み合わせることで,人間がアノテートボックスをスクラッチからアノテートするのに要する時間に数百のエラーを回復できることを示す。
しかし、最高のメソッドでさえ、真のエラーの最大66%を見逃し、低品質なラベルは見つからないほど多くのエラーをもたらす。
これは、我々のリリースしたベンチマークで有効になった、さらなる研究の緊急の必要性を強調します。
関連論文リスト
- Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。
PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。
PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文 参考訳(メタデータ) (2025-03-06T09:14:02Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Improving Label Error Detection and Elimination with Uncertainty Quantification [5.184615738004059]
我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T15:17:52Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Identifying Label Errors in Object Detection Datasets by Loss Inspection [4.442111891959355]
本稿では,オブジェクト検出データセットにおけるラベル誤り検出手法のベンチマークを紹介する。
そこで本研究では,軌道上でランダムに導入した4種類のラベルエラーと,良好なラベル付きオブジェクト検出データセットの試験セットをシミュレートする。
論文 参考訳(メタデータ) (2023-03-13T10:54:52Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。