論文の概要: Leveraging Data Symmetries to Select an Optimal Subset of Training Data under Label Noise
- arxiv url: http://arxiv.org/abs/2605.01874v1
- Date: Sun, 03 May 2026 13:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.976042
- Title: Leveraging Data Symmetries to Select an Optimal Subset of Training Data under Label Noise
- Title(参考訳): ラベルノイズ下でのトレーニングデータの最適サブセット選択のためのデータ対称性の活用
- Authors: Kumar Shubham, Pavan Karjol, Kiran M K, Prathosh AP,
- Abstract要約: ノイズの多い環境では、モデルがノイズフリーデータセットでのトレーニングに匹敵するパフォーマンスを達成することができるトレーニングデータのサブセットが存在する可能性がある。
カットスタットを用いて選択した雑音データセットのサブセットに基づいて学習した分類器の性能がk-NNの精度に影響されていることを示す。
- 参考スコア(独自算出の注目度): 8.979334145616019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of machine learning models often relies on large labeled datasets; however, data collected from diverse sources can contain label noise. Recent work has shown that, in noisy settings, there may exist a subset of the training data on which models can achieve performance comparable to training on a noise-free dataset. A widely used method for identifying such subsets is cutstats, which employs k-nearest neighbors (k-NN) to detect low-noise samples. However, its performance on high-dimensional data remains largely unexplored. In this work, we formally establish that the performance of a classifier trained on a subset of a noisy dataset selected via cutstats is influenced by the accuracy of k-NN. We further demonstrate that, in noisy environments, exploiting data invariance and knowledge of underlying symmetries can significantly enhance the performance of k-NN, bringing it closer to the Bayes optimal classifier even in high-dimensional regimes. Finally, we show that for real-world scenarios, where information about the underlying invariance is only partially known, learnt invariant representations can still facilitate the identification of near-optimal subsets.
- Abstract(参考訳): 機械学習モデルの性能は、しばしば大きなラベル付きデータセットに依存するが、多様なソースから収集されたデータはラベルノイズを含むことができる。
最近の研究によると、ノイズの多い環境では、モデルがノイズフリーデータセットでのトレーニングに匹敵するパフォーマンスを達成できるトレーニングデータのサブセットが存在する可能性がある。
このようなサブセットを特定するために広く使われている手法はカットスタットであり、k-nearest neighbors (k-NN) を用いて低ノイズサンプルを検出する。
しかし、その高次元データに対する性能はほとんど未解明のままである。
本研究は,k-NNの精度の影響を,カットスタットを用いて選択した雑音データセットのサブセット上で学習した分類器の性能が,その精度に影響されることを正式に証明する。
さらに、ノイズの多い環境では、データ不変性や基礎となる対称性の知識を利用することで、k-NNの性能が大幅に向上し、高次元状態においてもベイズ最適分類器に近づくことが実証された。
最後に、基礎となる不変性に関する情報が部分的にしか知られていない実世界のシナリオに対して、学習された不変性表現は、依然として準最適部分集合の識別を容易にすることができることを示す。
関連論文リスト
- Robust Classification under Noisy Labels: A Geometry-Aware Reliability Framework for Foundation Models [22.68107594048035]
モデル再構成なしでラベルノイズの存在下でのロバストな分類を保証するための2段階のフレームワークを提案する。
近年の研究では、FMから導出した埋め込みを用いた単純なk-アレスト近傍のアプローチは、重度ラベルノイズがあっても良好な性能を発揮することが示されている。
本稿では, 同様の2段階の手法, 信頼性推定, 信頼性重み付け推論に続いて, 幾何情報の導入による性能向上が可能であることを示す。
論文 参考訳(メタデータ) (2025-07-31T23:01:32Z) - Detect and Correct: A Selective Noise Correction Method for Learning with Noisy Labels [14.577138753507203]
ノイズラベル(noisy labels)としても知られる偽アノテートサンプルは、ディープラーニングモデルの性能を著しく損なう可能性がある。
ノイズラベルを用いた学習には,大域的雑音推定とデータフィルタリングの2つのアプローチがある。
本手法は, 損失分布に基づいて, うるさいサンプルを同定する。
次に、ノイズとクリーンなサンプルを分離する選択プロセスを適用し、ノイズ遷移行列を学習してノイズのあるサンプルの損失を補正し、クリーンなデータは影響を受けないままにしておく。
論文 参考訳(メタデータ) (2025-05-19T16:49:27Z) - Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。
サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。
SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文 参考訳(メタデータ) (2025-01-19T14:41:55Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Learning Confident Classifiers in the Presence of Label Noise [5.551384206194696]
本稿では,ノイズ観測のための確率論的モデルを提案し,信頼性の高い分類とセグメンテーションモデルの構築を可能にする。
実験により,本アルゴリズムは,検討された分類問題と分割問題に対して,最先端の解よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-02T04:27:25Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Generation and Analysis of Feature-Dependent Pseudo Noise for Training
Deep Neural Networks [0.0]
ノイズの多いラベル付きデータセット上でディープニューラルネットワーク(DNN)をトレーニングすることは難しい問題である。
そこで我々は,DNNのトレーニング予測を,真のラベル情報を保持するクリーンデータセット上で利用することにより,特徴依存型ノイズデータセットを作成するための直感的なアプローチを提案する。
我々は,Pseudoノイズデータセットが,異なる条件における特徴依存ノイズデータセットに類似していることを確認するために,いくつかの実験を行った。
論文 参考訳(メタデータ) (2021-05-22T19:15:26Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。