論文の概要: Hard Samples, Bad Labels: Robust Loss Functions That Know When to Back Off
- arxiv url: http://arxiv.org/abs/2511.16512v2
- Date: Tue, 25 Nov 2025 21:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.311849
- Title: Hard Samples, Bad Labels: Robust Loss Functions That Know When to Back Off
- Title(参考訳): ハードサンプルとバッドラベル:いつ戻るべきか知っているロバストなロス関数
- Authors: Nicholas Pellegrino, David Szczecina, Paul Fieguth,
- Abstract要約: 間違ったラベル付けされたトレーニングデータは、教師付き学習によって訓練されたモデルの性能と一般化性に悪影響を及ぼす。
そこで我々はBlurry Loss と Piecewise-zero Loss という2つの新しい損失関数を評価した。
- 参考スコア(独自算出の注目度): 1.1582652820340928
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Incorrectly labelled training data are frustratingly ubiquitous in both benchmark and specially curated datasets. Such mislabelling clearly adversely affects the performance and generalizability of models trained through supervised learning on the associated datasets. Frameworks for detecting label errors typically require well-trained / well-generalized models; however, at the same time most frameworks rely on training these models on corrupt data, which clearly has the effect of reducing model generalizability and subsequent effectiveness in error detection -- unless a training scheme robust to label errors is employed. We evaluate two novel loss functions, Blurry Loss and Piecewise-zero Loss, that enhance robustness to label errors by de-weighting or disregarding difficult-to-classify samples, which are likely to be erroneous. These loss functions leverage the idea that mislabelled examples are typically more difficult to classify and should contribute less to the learning signal. Comprehensive experiments on a variety of artificially corrupted datasets demonstrate that the proposed loss functions outperform state-of-the-art robust loss functions in nearly all cases, achieving superior F1 scores for error detection. Further analyses through ablation studies offer insights to confirm these loss functions' broad applicability to cases of both uniform and non-uniform corruption, and with different label error detection frameworks. By using these robust loss functions, machine learning practitioners can more effectively identify, prune, or correct errors in their training data.
- Abstract(参考訳): 誤ってラベル付けされたトレーニングデータは、ベンチマークと特別にキュレートされたデータセットの両方でフラストレーション的にユビキタスである。
このような誤りは、関連するデータセットの教師付き学習を通じて訓練されたモデルの性能と一般化性に明らかに悪影響を及ぼす。
ラベルエラーを検出するフレームワークは通常、よく訓練された/よく一般化されたモデルを必要とするが、同時にほとんどのフレームワークは、これらのモデルを破損したデータでトレーニングすることに頼っている。
そこで我々はBlurry LossとPiecewise-zero Lossという2つの新しい損失関数を評価した。
これらの損失関数は、誤りのある例は典型的には分類が困難であり、学習信号にはあまり寄与しないという考え方を利用する。
様々な人工的に破損したデータセットに関する総合的な実験により、提案された損失関数は、ほぼ全てのケースにおいて最先端のロバストな損失関数より優れ、エラー検出に優れたF1スコアが得られることを示した。
アブレーション研究によるさらなる分析は、これらの損失関数が一様かつ一様でない汚職の場合に、また異なるラベルエラー検出フレームワークで広範囲に適用可能であることを確認する洞察を与える。
これらのロバストな損失関数を使用することで、機械学習の実践者はトレーニングデータのエラーをより効果的に識別し、特定し、修正することができる。
関連論文リスト
- Detecting and Rectifying Noisy Labels: A Similarity-based Approach [4.686586017523293]
データセットのラベルノイズは、これらのデータセットでトレーニングされたディープニューラルネットワーク(DNN)のパフォーマンスと堅牢性を著しく損なう可能性がある。
提案手法は,DNNの入射特性を利用したポストホック・モデル非依存ノイズ検出・修正手法である。
我々の考えは、誤ラベル付きデータポイントと真のクラスデータポイントとの類似性は他のクラスのデータポイントよりも高いという観察に基づいている。
論文 参考訳(メタデータ) (2025-09-28T16:41:56Z) - Improving Label Error Detection and Elimination with Uncertainty Quantification [5.184615738004059]
我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T15:17:52Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Losses over Labels: Weakly Supervised Learning via Direct Loss
Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。
ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。
いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文 参考訳(メタデータ) (2022-12-13T22:29:14Z) - CTRL: Clustering Training Losses for Label Error Detection [4.49681473359251]
教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。
本稿では,ラベル誤り検出のための新しいフレームワークClustering TRaining Lossesを提案する。
モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。
論文 参考訳(メタデータ) (2022-08-17T18:09:19Z) - Detecting Label Errors using Pre-Trained Language Models [37.82128817976385]
学習済みの大規模言語モデルでは,データセットのラベルエラーを識別する能力が非常に高いことを示す。
クラウドソーシングされたデータからリアルで人間指向のラベルノイズを生成するための新しい手法を提案し,この手法の有効性をTweetNLP上で実証する。
論文 参考訳(メタデータ) (2022-05-25T11:59:39Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Sample Selection with Uncertainty of Losses for Learning with Noisy
Labels [145.06552420999986]
ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。
しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失をオンザフライで発生させるため、大容量のデータはおそらく正しくないが、確実に誤りではない。
本稿では,損失点推定の代わりに間隔推定を採用することにより,損失の不確実性を取り入れる。
論文 参考訳(メタデータ) (2021-06-01T12:53:53Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z) - Distribution-Balanced Loss for Multi-Label Classification in Long-Tailed
Datasets [98.74153364118898]
本稿では,長距離クラス分布を示す多ラベル認識問題に対して,分散ベース損失と呼ばれる新たな損失関数を提案する。
Distribution-Balanced Lossは、標準的なバイナリのクロスエントロピー損失に対する2つの重要な修正を通じて、これらの問題に取り組む。
パスカルVOCとCOCOの両方の実験により、この新しい損失関数で訓練されたモデルは、大幅な性能向上を達成できた。
論文 参考訳(メタデータ) (2020-07-19T11:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。