論文の概要: Learning from Noisy Labels via Self-Taught On-the-Fly Meta Loss Rescaling
- arxiv url: http://arxiv.org/abs/2412.12955v1
- Date: Tue, 17 Dec 2024 14:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:25.954758
- Title: Learning from Noisy Labels via Self-Taught On-the-Fly Meta Loss Rescaling
- Title(参考訳): 自己学習型メタロス再スケーリングによる雑音ラベルからの学習
- Authors: Michael Heck, Christian Geishauser, Nurul Lubis, Carel van Niekerk, Shutong Feng, Hsien-Chin Lin, Benjamin Matthias Ruppik, Renato Vukovic, Milica Gašić,
- Abstract要約: そこで本研究では,リウェイトトレーニングサンプルに対する非教師なしメタロス再スケーリングを提案する。
我々は,対話モデリングの課題を生かした,初級訓練データの再重み付けを試みている。
我々の戦略は、ノイズの多いクリーンなデータに直面し、クラス不均衡を処理し、ノイズの多いラベルへの過度な適合を防ぐ。
- 参考スコア(独自算出の注目度): 6.861041888341339
- License:
- Abstract: Correct labels are indispensable for training effective machine learning models. However, creating high-quality labels is expensive, and even professionally labeled data contains errors and ambiguities. Filtering and denoising can be applied to curate labeled data prior to training, at the cost of additional processing and loss of information. An alternative is on-the-fly sample reweighting during the training process to decrease the negative impact of incorrect or ambiguous labels, but this typically requires clean seed data. In this work we propose unsupervised on-the-fly meta loss rescaling to reweight training samples. Crucially, we rely only on features provided by the model being trained, to learn a rescaling function in real time without knowledge of the true clean data distribution. We achieve this via a novel meta learning setup that samples validation data for the meta update directly from the noisy training corpus by employing the rescaling function being trained. Our proposed method consistently improves performance across various NLP tasks with minimal computational overhead. Further, we are among the first to attempt on-the-fly training data reweighting on the challenging task of dialogue modeling, where noisy and ambiguous labels are common. Our strategy is robust in the face of noisy and clean data, handles class imbalance, and prevents overfitting to noisy labels. Our self-taught loss rescaling improves as the model trains, showing the ability to keep learning from the model's own signals. As training progresses, the impact of correctly labeled data is scaled up, while the impact of wrongly labeled data is suppressed.
- Abstract(参考訳): 正確なラベルは、効果的な機械学習モデルのトレーニングには不可欠である。
しかし、高品質なラベルを作成するのは高価であり、プロフェッショナルにラベル付けされたデータにもエラーや曖昧さが含まれている。
トレーニング前にラベル付きデータを、追加の処理と情報の損失のコストでキュレートするために、フィルタリングとデノベーションを適用することができる。
別の方法は、トレーニング中のオンザフライサンプル再重み付けで、不正または曖昧なラベルの負の影響を減少させるが、通常はクリーンなシードデータを必要とする。
本研究では,リウェイトトレーニングサンプルに対する非教師なしメタロス再スケーリングを提案する。
重要なのは、トレーニング対象のモデルが提供する機能のみに依存して、真のクリーンなデータ分布を知らずに、リアルタイムに再スケーリング機能を学ぶことです。
トレーニング中の再スケーリング機能を利用することで、ノイズの多いトレーニングコーパスから直接、メタ更新の検証データをサンプリングする新しいメタ学習設定により、これを実現する。
提案手法は,計算オーバーヘッドを最小限に抑えつつ,様々なNLPタスクのパフォーマンスを継続的に改善する。
さらに、ノイズやあいまいなラベルが一般的である対話モデリングの課題に対して、オンザフライトレーニングデータを再重み付けを試みる試みとしては、今回が初めてである。
我々の戦略は、ノイズの多いクリーンなデータに直面し、クラス不均衡を処理し、ノイズの多いラベルへの過度な適合を防ぐ。
我々の自己学習損失再スケーリングは、モデルが訓練するにつれて改善され、モデル自身の信号から学び続ける能力を示す。
トレーニングが進むにつれて、正しくラベル付けされたデータの影響が拡大され、誤ったラベル付けされたデータの影響が抑制される。
関連論文リスト
- Early Stopping Against Label Noise Without Validation Data [54.27621957395026]
所望のモデルを選択するのに検証データを必要としないラベルウェーブと呼ばれる新しい早期停止手法を提案する。
各種設定におけるラベルウェーブ法の有効性と,ノイズラベルを用いた学習における既存手法の性能向上を両立させる能力について述べる。
論文 参考訳(メタデータ) (2025-02-11T13:40:15Z) - Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively
Tuning Pre-trained Code Models [38.7352992942213]
我々は,大規模な未ラベルデータセットを用いた事前学習型コードモデルを改善するために,HINTという新しいアプローチを提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
実験の結果、HINTはタスク固有の方法でラベル付けされていないデータをうまく活用できることがわかった。
論文 参考訳(メタデータ) (2024-01-02T06:39:00Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Learning advisor networks for noisy image classification [22.77447144331876]
本稿では,画像分類におけるノイズラベルの問題に対処するためのアドバイザネットワークの概念を紹介する。
私たちはメタラーニング戦略でそれをトレーニングし、メインモデルのトレーニングを通じて適応できるようにしました。
我々はCIFAR10とCIFAR100を合成雑音で試験し,実環境雑音を含むCrothing1Mを用いて最先端の結果を報告する。
論文 参考訳(メタデータ) (2022-11-08T11:44:08Z) - Pseudo-Label Noise Suppression Techniques for Semi-Supervised Semantic
Segmentation [21.163070161951868]
半消費学習(SSL)は、教師なしデータをトレーニングに組み込むことで、大きなラベル付きデータセットの必要性を減らすことができる。
現在のSSLアプローチでは、初期教師付きトレーニングモデルを使用して、擬似ラベルと呼ばれる未ラベル画像の予測を生成する。
擬似ラベルノイズと誤りを3つのメカニズムで制御する。
論文 参考訳(メタデータ) (2022-10-19T09:46:27Z) - Semi-supervised Learning using Robust Loss [0.0]
手動ラベル付きデータと追加ラベル付きデータの両方を活用するための半教師付きトレーニング戦略を提案する。
既存の手法とは対照的に、自動ラベル付きデータに対してロバストな損失を適用し、不均一なデータ品質を補う。
提案手法は,画像分類におけるラベルの不均一な品質を補正することにより,モデル性能の向上を図っている。
論文 参考訳(メタデータ) (2022-03-03T05:34:32Z) - CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and
Segmentation [60.28924281991539]
本稿では,タスク固有性バランスを向上するために,クラス非依存型半教師付き事前学習(CaSP)フレームワークを提案する。
我々は3.6Mの未ラベルデータを用いて、ImageNetで規定されたオブジェクト検出のベースラインよりも4.7%の顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-12-09T14:54:59Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。