論文の概要: Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks
- arxiv url: http://arxiv.org/abs/2409.08647v1
- Date: Fri, 13 Sep 2024 09:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:18:35.819950
- Title: Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks
- Title(参考訳): 分類作業のためのラベルノイズを含む接尾辞データを用いた学習勾配強化決定木
- Authors: Anita Eisenbürger, Daniel Otten, Anselm Hudde, Frank Hopfgartner,
- Abstract要約: 本研究の目的は,ラベルノイズが勾配ブースト決定木に及ぼす影響とそれらの効果を緩和する方法を検討することである。
提案手法は,成人のデータセットに対して最先端のノイズ検出性能を示し,成人および乳癌のデータセットに対して最も高い分類精度とリコールを実現する。
- 参考スコア(独自算出の注目度): 1.261491746208123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label noise refers to the phenomenon where instances in a data set are assigned to the wrong label. Label noise is harmful to classifier performance, increases model complexity and impairs feature selection. Addressing label noise is crucial, yet current research primarily focuses on image and text data using deep neural networks. This leaves a gap in the study of tabular data and gradient-boosted decision trees (GBDTs), the leading algorithm for tabular data. Different methods have already been developed which either try to filter label noise, model label noise while simultaneously training a classifier or use learning algorithms which remain effective even if label noise is present. This study aims to further investigate the effects of label noise on gradient-boosted decision trees and methods to mitigate those effects. Through comprehensive experiments and analysis, the implemented methods demonstrate state-of-the-art noise detection performance on the Adult dataset and achieve the highest classification precision and recall on the Adult and Breast Cancer datasets, respectively. In summary, this paper enhances the understanding of the impact of label noise on GBDTs and lays the groundwork for future research in noise detection and correction methods.
- Abstract(参考訳): ラベルノイズとは、データセットのインスタンスが間違ったラベルに割り当てられる現象を指す。
ラベルノイズは分類器の性能に有害であり、モデルの複雑さを高め、特徴選択を損なう。
ラベルノイズに対処することが重要であるが、現在の研究は主にディープニューラルネットワークを用いた画像とテキストデータに焦点を当てている。
このことは、表データの先行アルゴリズムである表型データと勾配型決定木(GBDT)の研究にギャップを残している。
ラベルノイズが存在する場合でも学習アルゴリズムを学習しながら、ラベルノイズ、モデルラベルノイズをフィルタリングする様々な手法がすでに開発されている。
本研究は,ラベルノイズが勾配型決定木に及ぼす影響とそれらの効果を緩和する方法について,さらに検討することを目的とする。
提案手法は,アダルトデータセット上での最先端ノイズ検出性能を実証し,アダルトデータセットと乳がんデータセットの最も高い分類精度とリコールを実現する。
本稿では,GBDTにおけるラベルノイズの影響の理解を深め,ノイズ検出・補正手法の今後の研究の基盤となるものについて述べる。
関連論文リスト
- Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。
サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。
SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文 参考訳(メタデータ) (2025-01-19T14:41:55Z) - NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Learning from Training Dynamics: Identifying Mislabeled Data Beyond
Manually Designed Features [43.41573458276422]
LSTMネットワークを例として,ノイズ検出を応用した新しい学習ベースソリューションを提案する。
提案手法は、合成ラベル雑音を用いたデータセットを用いて、教師あり方式でノイズ検出器を訓練する。
提案手法は, 各種データセットの誤ラベルサンプルを, さらなる適応を伴わずに, 精度良く検出できることが示唆された。
論文 参考訳(メタデータ) (2022-12-19T09:39:30Z) - Noisy Label Classification using Label Noise Selection with Test-Time Augmentation Cross-Entropy and NoiseMix Learning [22.02829139522153]
本論文では,テスト時間拡張(TTA)クロスエントロピーを用いたラベルノイズ選択とNossMix法による分類器学習を用いたノイズラベルデータの学習手法を提案する。
ISIC-18公開皮膚病変診断データセットの実験において、提案したTTAクロスエントロピーは、ラベルノイズデータの検出において従来のクロスエントロピーとTTAの不確実性よりも優れていた。
論文 参考訳(メタデータ) (2022-12-01T13:05:20Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Improving Medical Image Classification with Label Noise Using
Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。
医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-28T14:56:45Z) - Towards Robustness to Label Noise in Text Classification via Noise
Modeling [7.863638253070439]
NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。
本稿では,ラベルノイズを用いたテキスト分類の問題について検討し,分類器上での補助雑音モデルを用いてこのノイズを捉えることを目的とする。
論文 参考訳(メタデータ) (2021-01-27T05:41:57Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。