論文の概要: Can We Treat Noisy Labels as Accurate?
- arxiv url: http://arxiv.org/abs/2405.12969v1
- Date: Tue, 21 May 2024 17:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:30:44.645523
- Title: Can We Treat Noisy Labels as Accurate?
- Title(参考訳): ノイズラベルを正確に扱えるか?
- Authors: Yuxiang Zheng, Zhongyi Han, Yilong Yin, Xin Gao, Tongliang Liu,
- Abstract要約: ノイズラベルは、機械学習モデルの精度と一般化を著しく妨げている。
ノイズラベルからの学習におけるパラダイムシフトであるEchoAlignを紹介する。
以上の結果から,EchoAlignは従来の最先端技術よりも大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 81.5812983391766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Noisy labels significantly hinder the accuracy and generalization of machine learning models, particularly due to ambiguous instance features. Traditional techniques that attempt to correct noisy labels directly, such as those using transition matrices, often fail to address the inherent complexities of the problem sufficiently. In this paper, we introduce EchoAlign, a transformative paradigm shift in learning from noisy labels. Instead of focusing on label correction, EchoAlign treats noisy labels ($\tilde{Y}$) as accurate and modifies corresponding instance features ($X$) to achieve better alignment with $\tilde{Y}$. EchoAlign's core components are (1) EchoMod: Employing controllable generative models, EchoMod precisely modifies instances while maintaining their intrinsic characteristics and ensuring alignment with the noisy labels. (2) EchoSelect: Instance modification inevitably introduces distribution shifts between training and test sets. EchoSelect maintains a significant portion of clean original instances to mitigate these shifts. It leverages the distinct feature similarity distributions between original and modified instances as a robust tool for accurate sample selection. This integrated approach yields remarkable results. In environments with 30% instance-dependent noise, even at 99% selection accuracy, EchoSelect retains nearly twice the number of samples compared to the previous best method. Notably, on three datasets, EchoAlign surpasses previous state-of-the-art techniques with a substantial improvement.
- Abstract(参考訳): ノイズラベルは、特にあいまいなインスタンス機能のために、機械学習モデルの正確性と一般化を著しく妨げている。
遷移行列などのノイズラベルを直接修正しようとする従来の手法は、問題の本質的な複雑さに十分対応できないことが多い。
本稿では,雑音ラベルからの学習におけるパラダイムシフトであるEchoAlignを紹介する。
ラベルの修正に集中するのではなく、EchoAlignはノイズのあるラベル($\tilde{Y}$)を正確に扱い、対応するインスタンス機能($X$)を変更して$\tilde{Y}$とのアライメントを改善する。
EchoMod: 制御可能な生成モデルを用いることで、EchoModは固有の特性を維持しつつ、ノイズラベルとの整合性を確保しながら、インスタンスを正確に修正する。
2) EchoSelect: インスタンスの変更は、必然的にトレーニングとテストセット間の分散シフトを導入します。
EchoSelectは、これらのシフトを軽減するために、クリーンなオリジナルインスタンスのかなりの部分を維持している。
オリジナルと修正されたインスタンス間の特徴類似度分布を、正確なサンプル選択のための堅牢なツールとして活用する。
この統合されたアプローチは、顕著な結果をもたらす。
30%のインスタンス依存ノイズのある環境では、選択精度が99%であっても、EchoSelectは以前のベストメソッドに比べてサンプルの2倍近い数を保持している。
注目すべきなのは、3つのデータセットにおいて、EchoAlignは従来の最先端技術を超え、大幅に改善されていることだ。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - DyGen: Learning from Noisy Labels via Dynamics-Enhanced Generative
Modeling [15.773948716619728]
ノイズの多いラベルを持つ微調整言語モデルでは、モデルがラベルノイズに容易に適合し、性能が低下する。
ノイズラベルから学習するほとんどの既存の方法は、静的入力機能を使ってノイズを除去する。
埋め込み空間における動的パターンを用いて雑音ラベル予測を改善するDynamics-Enhanced Generative Model (DyGen)を提案する。
論文 参考訳(メタデータ) (2023-05-30T20:19:41Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - SELC: Self-Ensemble Label Correction Improves Learning with Noisy Labels [4.876988315151037]
ディープニューラルネットワークはノイズラベルを過度に適合させる傾向があり、結果として一般化性能は低下する。
ノイズラベルを段階的に補正し,モデルを改良する自己アンサンブルラベル補正法(SELC)を提案する。
SELCは、クラス条件、インスタンス依存、および実世界のラベルノイズの存在において、より有望で安定した結果を得る。
論文 参考訳(メタデータ) (2022-05-02T18:42:47Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Approximating Instance-Dependent Noise via Instance-Confidence Embedding [87.65718705642819]
マルチクラス分類におけるラベルノイズは、学習システムの展開にとって大きな障害である。
インスタンス依存ノイズ(IDN)モデルを調査し、IDNの効率的な近似を提案し、インスタンス固有のラベル破損を捕捉する。
論文 参考訳(メタデータ) (2021-03-25T02:33:30Z) - Extended T: Learning with Mixed Closed-set and Open-set Noisy Labels [86.5943044285146]
ラベルノイズ遷移行列$T$は、真のラベルがノイズのあるものへと反転する確率を反映する。
本稿では,閉集合と開集合の混在したラベル雑音下での学習に着目した。
本手法は,従来の最先端のラベル雑音学習法よりも頑健な性能を追求し,混合ラベル雑音をモデル化する。
論文 参考訳(メタデータ) (2020-12-02T02:42:45Z) - Class2Simi: A Noise Reduction Perspective on Learning with Noisy Labels [98.13491369929798]
そこで我々は,ノイズのあるクラスラベルを持つデータポイントを,ノイズの多い類似ラベルを持つデータペアに変換するClass2Simiというフレームワークを提案する。
Class2Simiは、この変換がミニバッチのオンザフライであるだけでなく、モデル予測上の損失をペアワイズに変化させるため、計算的に効率的である。
論文 参考訳(メタデータ) (2020-06-14T07:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。