論文の概要: Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data
- arxiv url: http://arxiv.org/abs/2504.17474v1
- Date: Thu, 24 Apr 2025 12:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.350538
- Title: Enhanced Sample Selection with Confidence Tracking: Identifying Correctly Labeled yet Hard-to-Learn Samples in Noisy Data
- Title(参考訳): 信頼度追跡によるサンプル選択の強化:ノイズデータ中の正しいラベル付きと難解なサンプルの同定
- Authors: Weiran Pan, Wei Wei, Feida Zhu, Yong Deng,
- Abstract要約: 雑音ラベルの存在下での画像分類のための新しいサンプル選択法を提案する。
私たちのゴールは、正しくラベル付けされているが学習が難しいサンプルと、ラベル付けされていないサンプルを正確に区別することです。
本手法は,既存のサンプル選択手法にシームレスに統合可能なプラグイン・アンド・プレイコンポーネントとして機能する。
- 参考スコア(独自算出の注目度): 18.111971239860836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel sample selection method for image classification in the presence of noisy labels. Existing methods typically consider small-loss samples as correctly labeled. However, some correctly labeled samples are inherently difficult for the model to learn and can exhibit high loss similar to mislabeled samples in the early stages of training. Consequently, setting a threshold on per-sample loss to select correct labels results in a trade-off between precision and recall in sample selection: a lower threshold may miss many correctly labeled hard-to-learn samples (low recall), while a higher threshold may include many mislabeled samples (low precision). To address this issue, our goal is to accurately distinguish correctly labeled yet hard-to-learn samples from mislabeled ones, thus alleviating the trade-off dilemma. We achieve this by considering the trends in model prediction confidence rather than relying solely on loss values. Empirical observations show that only for correctly labeled samples, the model's prediction confidence for the annotated labels typically increases faster than for any other classes. Based on this insight, we propose tracking the confidence gaps between the annotated labels and other classes during training and evaluating their trends using the Mann-Kendall Test. A sample is considered potentially correctly labeled if all its confidence gaps tend to increase. Our method functions as a plug-and-play component that can be seamlessly integrated into existing sample selection techniques. Experiments on several standard benchmarks and real-world datasets demonstrate that our method enhances the performance of existing methods for learning with noisy labels.
- Abstract(参考訳): 雑音ラベルの存在下での画像分類のための新しいサンプル選択法を提案する。
既存の方法は、通常、小さなロスサンプルを正しくラベル付けされているとみなす。
しかしながら、正しくラベル付けされたサンプルのいくつかは、モデルが学習することが本質的に困難であり、トレーニングの初期段階で誤ってラベル付けされたサンプルと同様、高い損失を示すことができる。
その結果、正しいラベルを選択するためにサンプル単位の損失にしきい値を設定すると、サンプル選択において精度とリコールの間のトレードオフが発生する:低いしきい値は多くの正しくラベル付けされたハード・ツー・ラーンサンプルを見逃す(低いリコール)が、高いしきい値には多くの誤ラベルされたサンプルを含む(低い精度)。
この問題に対処するためには、正しくラベル付けされているが学習が難しいサンプルと、誤ってラベル付けされたサンプルとを正確に区別し、トレードオフジレンマを緩和することが目的である。
損失値のみに頼るのではなく、モデル予測の信頼性の傾向を考慮し、これを実現する。
実験的な観察は、正しくラベル付けされたサンプルに対してのみ、アノテートされたラベルに対するモデルの予測信頼度が他のどのクラスよりも速く増加することを示している。
この知見に基づき、アノテートされたラベルと他のクラス間の信頼ギャップをトレーニング中に追跡し、Mann-Kendall Testを用いてそれらの傾向を評価することを提案する。
サンプルは、すべての信頼ギャップが増加する傾向にある場合、潜在的に正しくラベル付けされる。
本手法は,既存のサンプル選択手法にシームレスに統合可能なプラグイン・アンド・プレイコンポーネントとして機能する。
いくつかの標準ベンチマークと実世界のデータセットを用いた実験により,本手法はノイズラベルを用いた既存の学習手法の性能を向上させることが実証された。
関連論文リスト
- Learning with Confidence: Training Better Classifiers from Soft Labels [0.0]
教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。
クラスラベル上の離散確率分布として表されるラベルの不確実性を組み込むことで,分類モデルの予測性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-24T13:12:29Z) - Self Adaptive Threshold Pseudo-labeling and Unreliable Sample Contrastive Loss for Semi-supervised Image Classification [6.920336485308536]
擬似ラベルに基づく半教師付きアプローチは、画像分類において2つの問題に悩まされる。
我々は,各クラスの閾値を動的に調整し,信頼性の高いサンプル数を増やす自己適応型閾値擬似ラベル戦略を開発した。
しきい値以下でラベル付けされていないデータを効果的に活用するために、信頼できないサンプルコントラスト損失を提案する。
論文 参考訳(メタデータ) (2024-07-04T03:04:56Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - LOPS: Learning Order Inspired Pseudo-Label Selection for Weakly
Supervised Text Classification [28.37907856670151]
擬似ラベルは性質上ノイズが多いため、正しいラベルを選択すると性能が向上する可能性がある。
本稿では,サンプルの学習順序を考慮に入れた新しい擬似ラベル選択手法LOPSを提案する。
LOPSは、既存の弱い教師付きテキスト分類手法のほとんどに対して、強力なパフォーマンスブーストプラグインと見なすことができる。
論文 参考訳(メタデータ) (2022-05-25T06:46:48Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Confidence Adaptive Regularization for Deep Learning with Noisy Labels [2.0349696181833337]
ディープニューラルネットワークのノイズラベルに対する記憶効果に関する最近の研究は、ネットワークが正しくラベル付けされたトレーニングサンプルに最初に適合し、誤ってラベル付けされたサンプルを記憶することを示している。
そこで本研究では,この早期学習現象に触発されて,誤記サンプルの暗記を防止する新しい方法を提案する。
我々は,合成および実世界のデータセットに関する理論的解析と実験を行い,本手法が最先端の手法に匹敵する結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-18T15:51:25Z) - Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised
Learning [27.258077365554474]
半教師あり学習の文脈における擬似ラベルの考え方を再考する。
Pseudo-labelingは、未ラベル集合のサンプルに擬似ラベルを適用することで機能する。
CIFAR-10で94.91%、Imagenet-ILSVRCで68.87%、ラベル付きサンプルで68.87%の精度で94.91%の精度を得る。
論文 参考訳(メタデータ) (2020-01-16T03:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。