論文の概要: Why Can Accurate Models Be Learned from Inaccurate Annotations?
- arxiv url: http://arxiv.org/abs/2505.16159v1
- Date: Thu, 22 May 2025 03:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.997909
- Title: Why Can Accurate Models Be Learned from Inaccurate Annotations?
- Title(参考訳): なぜ不正確なアノテーションから正確なモデルを学ぶことができるのか?
- Authors: Chongjie Si, Yidan Cui, Fuchao Yang, Xiaokang Yang, Wei Shen,
- Abstract要約: 誤ったラベルが存在するにもかかわらず、ノイズの多いデータに基づいて訓練されたモデルは、しばしば正確な予測を行う能力を保持する。
この興味深い現象は、なぜモデルが不正確なアノテーションから正確なラベル情報を抽出できるのかという根本的な疑問を提起する。
ラベルの不正確さによって生じるノイズを軽減しつつ,分類器が主部分空間情報の保持を支援する軽量なプラグインであるLIPを提案する。
- 参考スコア(独自算出の注目度): 48.528799044535155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from inaccurate annotations has gained significant attention due to the high cost of precise labeling. However, despite the presence of erroneous labels, models trained on noisy data often retain the ability to make accurate predictions. This intriguing phenomenon raises a fundamental yet largely unexplored question: why models can still extract correct label information from inaccurate annotations remains unexplored. In this paper, we conduct a comprehensive investigation into this issue. By analyzing weight matrices from both empirical and theoretical perspectives, we find that label inaccuracy primarily accumulates noise in lower singular components and subtly perturbs the principal subspace. Within a certain range, the principal subspaces of weights trained on inaccurate labels remain largely aligned with those learned from clean labels, preserving essential task-relevant information. We formally prove that the angles of principal subspaces exhibit minimal deviation under moderate label inaccuracy, explaining why models can still generalize effectively. Building on these insights, we propose LIP, a lightweight plug-in designed to help classifiers retain principal subspace information while mitigating noise induced by label inaccuracy. Extensive experiments on tasks with various inaccuracy conditions demonstrate that LIP consistently enhances the performance of existing algorithms. We hope our findings can offer valuable theoretical and practical insights to understand of model robustness under inaccurate supervision.
- Abstract(参考訳): 不正確なアノテーションから学ぶことは、正確なラベル付けのコストが高いために大きな注目を集めている。
しかし、誤ったラベルが存在するにもかかわらず、ノイズの多いデータに基づいて訓練されたモデルは、しばしば正確な予測を行う能力を保持する。
この興味深い現象は、なぜモデルが不正確なアノテーションから正確なラベル情報を抽出できるのかという根本的な疑問を提起する。
本稿では,この問題を包括的に調査する。
経験的および理論的両視点から重み行列を解析することにより、ラベルの不正確性は、主に低い特異成分にノイズを蓄積し、主部分空間を亜摂動する。
ある範囲内では、不正確なラベルで訓練された重みの主部分空間は、クリーンなラベルから学んだものと大きく一致し、必須のタスク関連情報を保存している。
主部分空間の角度が中等度ラベルの不正確さの下で最小偏差を示すことを正式に証明し、なぜモデルが依然として効果的に一般化できるのかを説明する。
これらの知見に基づいて,ラベルの不正確さによるノイズの軽減を図りながら,分類器が主部分空間情報の保持を支援する軽量なプラグイン LIP を提案する。
様々な不正確条件のタスクに対する大規模な実験により、LIPは既存のアルゴリズムの性能を継続的に向上することを示した。
不正確な監視の下でモデルロバスト性を理解する上で、我々の発見が価値のある理論的および実践的な洞察を得られることを願っている。
関連論文リスト
- Don't Blame the Data, Blame the Model: Understanding Noise and Bias When
Learning from Subjective Annotations [9.221081428960318]
集約ラベルのみを提供するモデルでは,高分散データインスタンスに対する信頼性が低いことを示す。
本実験は, 高分解率インスタンスに対する信頼性の向上を示す。
論文 参考訳(メタデータ) (2024-03-06T22:30:04Z) - Using Early Readouts to Mediate Featural Bias in Distillation [30.5299408494168]
ディープネットワークは、現実世界の教師付き学習タスクにおいて、突発的な特徴ラベル相関を学習する傾向がある。
本稿では,従来のネットワーク層からの表現を用いてラベルを予測しようとする新しい早期読み出し機構を提案する。
論文 参考訳(メタデータ) (2023-10-28T04:58:15Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Weak Proxies are Sufficient and Preferable for Fairness with Missing
Sensitive Attributes [25.730297492625507]
適切な3つのプロキシのみを用いて,正当性(確実に)を正確に測定できるアルゴリズムを開発した。
本結果は,プロキシの適切な使用方法に関する実践者のための実践的ガイドラインのセットであることを示唆している。
論文 参考訳(メタデータ) (2022-10-06T19:25:29Z) - Prototype-Anchored Learning for Learning with Imperfect Annotations [83.7763875464011]
不完全な注釈付きデータセットからバイアスのない分類モデルを学ぶことは困難である。
本稿では,様々な学習に基づく分類手法に容易に組み込むことができるプロトタイプ・アンコレッド学習法を提案する。
我々は,PALがクラス不均衡学習および耐雑音学習に与える影響を,合成および実世界のデータセットに関する広範な実験により検証した。
論文 参考訳(メタデータ) (2022-06-23T10:25:37Z) - A Theoretical Analysis of Learning with Noisily Labeled Data [62.946840431501855]
最初に、最初のエポックトレーニングで、クリーンラベルの例が先に学習されることを示しました。
次に、クリーンデータステージから学習した後、継続的なトレーニングモデルがテストエラーのさらなる改善を達成できることを示します。
論文 参考訳(メタデータ) (2021-04-08T23:40:02Z) - Robustness of Accuracy Metric and its Inspirations in Learning with
Noisy Labels [51.66448070984615]
十分な数の雑音サンプルに対してトレーニング精度を最大化すると,ほぼ最適な分類器が得られることを示す。
検証のために、ノイズの多い検証セットが信頼できることを証明し、モデル選択のクリティカルな要求に対処する。
理論結果に動機づけられて,ノイズラベルをトレーニングしたモデルの特徴付けを行い,ノイズ検証セットの有用性を検証する。
論文 参考訳(メタデータ) (2020-12-08T03:37:47Z) - An Investigation of how Label Smoothing Affects Generalization [22.663974656813824]
一般化損失を制御するためにラベルの平滑化がどう役立つかを示す。
我々の理論はまた、最適なラベル平滑化点の存在を予測している。
この知見は,理論家や実践者がラベルの平滑化を理解する上で有効である。
論文 参考訳(メタデータ) (2020-10-23T20:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。