論文の概要: Assessing the Quality of the Datasets by Identifying Mislabeled Samples
- arxiv url: http://arxiv.org/abs/2109.05000v1
- Date: Fri, 10 Sep 2021 17:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 15:13:38.077602
- Title: Assessing the Quality of the Datasets by Identifying Mislabeled Samples
- Title(参考訳): 誤ラベル標本の同定によるデータセットの品質評価
- Authors: Vaibhav Pulastya, Gaurav Nuti, Yash Kumar Atri, Tanmoy Chakraborty
- Abstract要約: 本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
- 参考スコア(独自算出の注目度): 14.881597737762316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the over-emphasize of the quantity of data, the data quality has often
been overlooked. However, not all training data points contribute equally to
learning. In particular, if mislabeled, it might actively damage the
performance of the model and the ability to generalize out of distribution, as
the model might end up learning spurious artifacts present in the dataset. This
problem gets compounded by the prevalence of heavily parameterized and complex
deep neural networks, which can, with their high capacity, end up memorizing
the noise present in the dataset. This paper proposes a novel statistic --
noise score, as a measure for the quality of each data point to identify such
mislabeled samples based on the variations in the latent space representation.
In our work, we use the representations derived by the inference network of
data quality supervised variational autoencoder (AQUAVS). Our method leverages
the fact that samples belonging to the same class will have similar latent
representations. Therefore, by identifying the outliers in the latent space, we
can find the mislabeled samples. We validate our proposed statistic through
experimentation by corrupting MNIST, FashionMNIST, and CIFAR10/100 datasets in
different noise settings for the task of identifying mislabelled samples. We
further show significant improvements in accuracy for the classification task
for each dataset.
- Abstract(参考訳): データ量の過度な強調のため、データ品質はしばしば見過ごされてきた。
しかし、すべてのトレーニングデータポイントが学習に等しく貢献するわけではない。
特に、誤ったラベルを付けると、モデルがデータセットに存在するスプリアスアーティファクトを学習してしまう可能性があるため、モデルのパフォーマンスと分散を一般化する能力が積極的に損なわれる可能性がある。
この問題は、高度にパラメータ化され複雑なディープニューラルネットワークの普及によって複雑化され、その高い容量でデータセットに存在するノイズを記憶することになる。
本稿では,各データポイントの品質を指標として,潜在空間表現のばらつきに基づいて,これらの誤ラベル標本を識別する新しい統計値-ノイズスコアを提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
本手法は同一クラスに属するサンプルが類似の潜在表現を持つという事実を利用する。
したがって、潜在空間の外れ値を特定することで、誤ったラベルのサンプルを見つけることができる。
我々は,MNIST,FashionMNIST,CIFAR10/100データセットを異なるノイズ設定で不正なサンプルを識別するための実験により,提案した統計データを検証した。
さらに,各データセットの分類タスクの精度を大幅に向上させる。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - On the Impact of Data Quality on Image Classification Fairness [11.329873246415797]
複数の画像分類データセットにまたがる様々なアルゴリズムにおける重要公平度の測定を行う。
我々は、ラベル内のノイズをトレーニングセット内のデータのラベル付けの不正確さ、データのノイズをデータの歪みとして記述する。
元のデータセットにノイズを加えることで、トレーニングデータの品質と、トレーニングデータ上でトレーニングされたモデルのアウトプットの公平性との関係を探ることができる。
論文 参考訳(メタデータ) (2023-05-02T16:54:23Z) - Learning from Training Dynamics: Identifying Mislabeled Data Beyond
Manually Designed Features [43.41573458276422]
LSTMネットワークを例として,ノイズ検出を応用した新しい学習ベースソリューションを提案する。
提案手法は、合成ラベル雑音を用いたデータセットを用いて、教師あり方式でノイズ検出器を訓練する。
提案手法は, 各種データセットの誤ラベルサンプルを, さらなる適応を伴わずに, 精度良く検出できることが示唆された。
論文 参考訳(メタデータ) (2022-12-19T09:39:30Z) - Combating noisy labels in object detection datasets [0.0]
本稿では,オブジェクト検出データセットにおける各ラベルの品質を評価するためのCLODアルゴリズムを提案する。
欠落した、突発的で、ラベルが間違えた、そして誤配置されたバウンディングボックスを特定し、修正を提案する。
提案手法は, 擬陽性率0.1未満の人工乱れ箱の80%近くを指摘できる。
論文 参考訳(メタデータ) (2022-11-25T10:05:06Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z) - On the Role of Dataset Quality and Heterogeneity in Model Confidence [27.657631193015252]
安全クリティカルなアプリケーションは、正確で校正された確率を出力する機械学習モデルを必要とする。
未分類のディープネットワークは、過度に信頼された予測をすることが知られている。
本研究では,データセットサイズとラベルノイズがモデルの信頼性に与える影響について検討した。
論文 参考訳(メタデータ) (2020-02-23T05:13:12Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。