論文の概要: Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks
- arxiv url: http://arxiv.org/abs/2409.08647v2
- Date: Mon, 06 Jan 2025 09:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:02:40.396385
- Title: Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks
- Title(参考訳): 分類作業のためのラベルノイズを含む接尾辞データを用いた学習勾配強化決定木
- Authors: Anita Eisenbürger, Daniel Otten, Anselm Hudde, Frank Hopfgartner,
- Abstract要約: 本研究は,ラベルノイズが勾配ブースト決定木(GBDT)に及ぼす影響について検討する。
GBDTを用いた深層学習から2つのノイズ検出手法を適用し,Gradientsと呼ばれる新しい検出手法を導入する。
ノイズ検出手法は,全てのノイズレベルにわたるアダルトデータセットにおいて,99%以上のノイズ検出精度で,最先端のノイズ検出を実現する。
- 参考スコア(独自算出の注目度): 1.261491746208123
- License:
- Abstract: Label noise, which refers to the mislabeling of instances in a dataset, can significantly impair classifier performance, increase model complexity, and affect feature selection. While most research has concentrated on deep neural networks for image and text data, this study explores the impact of label noise on gradient-boosted decision trees (GBDTs), the leading algorithm for tabular data. This research fills a gap by examining the robustness of GBDTs to label noise, focusing on adapting two noise detection methods from deep learning for use with GBDTs and introducing a new detection method called Gradients. Additionally, we extend a method initially designed for GBDTs to incorporate relabeling. By using diverse datasets such as Covertype and Breast Cancer, we systematically introduce varying levels of label noise and evaluate the effectiveness of early stopping and noise detection methods in maintaining model performance. Our noise detection methods achieve state-of-the-art results, with a noise detection accuracy above 99% on the Adult dataset across all noise levels. This work enhances the understanding of label noise in GBDTs and provides a foundation for future research in noise detection and correction methods.
- Abstract(参考訳): ラベルノイズ(ラベルノイズ)は、データセットのインスタンスの誤ラベルを指し、分類器のパフォーマンスが著しく低下し、モデルの複雑さが増大し、特徴の選択に影響する可能性がある。
多くの研究は、画像やテキストデータのためのディープニューラルネットワークに集中しているが、この研究では、グラフデータの主要なアルゴリズムである勾配ブースト決定木(GBDT)に対するラベルノイズの影響を調査している。
本研究は, GBDTを用いた深層学習における2つのノイズ検出手法の適応と, グラディエントと呼ばれる新しい検出手法の導入に着目し, ラベルノイズに対するGBDTの堅牢性について検討することによって, ギャップを埋めるものである。
さらに、当初GBDT用に設計されたメソッドを拡張して、relabelingを組み込む。
カバータイプや乳癌などの多様なデータセットを用いて,ラベルノイズのレベルを体系的に導入し,早期停止法とノイズ検出法の有効性を評価する。
ノイズ検出手法は,全てのノイズレベルにわたるアダルトデータセットにおいて,99%以上のノイズ検出精度で,最先端のノイズ検出を実現する。
本研究は,GBDTにおけるラベルノイズの理解を強化し,ノイズ検出と補正手法の今後の研究の基盤を提供する。
関連論文リスト
- Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。
サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。
SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文 参考訳(メタデータ) (2025-01-19T14:41:55Z) - NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Learning from Training Dynamics: Identifying Mislabeled Data Beyond
Manually Designed Features [43.41573458276422]
LSTMネットワークを例として,ノイズ検出を応用した新しい学習ベースソリューションを提案する。
提案手法は、合成ラベル雑音を用いたデータセットを用いて、教師あり方式でノイズ検出器を訓練する。
提案手法は, 各種データセットの誤ラベルサンプルを, さらなる適応を伴わずに, 精度良く検出できることが示唆された。
論文 参考訳(メタデータ) (2022-12-19T09:39:30Z) - Noisy Label Classification using Label Noise Selection with Test-Time Augmentation Cross-Entropy and NoiseMix Learning [22.02829139522153]
本論文では,テスト時間拡張(TTA)クロスエントロピーを用いたラベルノイズ選択とNossMix法による分類器学習を用いたノイズラベルデータの学習手法を提案する。
ISIC-18公開皮膚病変診断データセットの実験において、提案したTTAクロスエントロピーは、ラベルノイズデータの検出において従来のクロスエントロピーとTTAの不確実性よりも優れていた。
論文 参考訳(メタデータ) (2022-12-01T13:05:20Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Improving Medical Image Classification with Label Noise Using
Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。
医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-28T14:56:45Z) - Towards Robustness to Label Noise in Text Classification via Noise
Modeling [7.863638253070439]
NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。
本稿では,ラベルノイズを用いたテキスト分類の問題について検討し,分類器上での補助雑音モデルを用いてこのノイズを捉えることを目的とする。
論文 参考訳(メタデータ) (2021-01-27T05:41:57Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。