Fugu-MT 論文翻訳(概要): Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks

論文の概要: Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks

arxiv url: http://arxiv.org/abs/2409.08647v1
Date: Fri, 13 Sep 2024 09:09:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 17:18:35.819950
Title: Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks
Title（参考訳）: 分類作業のためのラベルノイズを含む接尾辞データを用いた学習勾配強化決定木
Authors: Anita Eisenbürger, Daniel Otten, Anselm Hudde, Frank Hopfgartner,
Abstract要約: 本研究の目的は,ラベルノイズが勾配ブースト決定木に及ぼす影響とそれらの効果を緩和する方法を検討することである。提案手法は,成人のデータセットに対して最先端のノイズ検出性能を示し,成人および乳癌のデータセットに対して最も高い分類精度とリコールを実現する。
参考スコア（独自算出の注目度）: 1.261491746208123
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Label noise refers to the phenomenon where instances in a data set are assigned to the wrong label. Label noise is harmful to classifier performance, increases model complexity and impairs feature selection. Addressing label noise is crucial, yet current research primarily focuses on image and text data using deep neural networks. This leaves a gap in the study of tabular data and gradient-boosted decision trees (GBDTs), the leading algorithm for tabular data. Different methods have already been developed which either try to filter label noise, model label noise while simultaneously training a classifier or use learning algorithms which remain effective even if label noise is present. This study aims to further investigate the effects of label noise on gradient-boosted decision trees and methods to mitigate those effects. Through comprehensive experiments and analysis, the implemented methods demonstrate state-of-the-art noise detection performance on the Adult dataset and achieve the highest classification precision and recall on the Adult and Breast Cancer datasets, respectively. In summary, this paper enhances the understanding of the impact of label noise on GBDTs and lays the groundwork for future research in noise detection and correction methods.
Abstract（参考訳）: ラベルノイズとは、データセットのインスタンスが間違ったラベルに割り当てられる現象を指す。ラベルノイズは分類器の性能に有害であり、モデルの複雑さを高め、特徴選択を損なう。ラベルノイズに対処することが重要であるが、現在の研究は主にディープニューラルネットワークを用いた画像とテキストデータに焦点を当てている。このことは、表データの先行アルゴリズムである表型データと勾配型決定木(GBDT)の研究にギャップを残している。ラベルノイズが存在する場合でも学習アルゴリズムを学習しながら、ラベルノイズ、モデルラベルノイズをフィルタリングする様々な手法がすでに開発されている。本研究は,ラベルノイズが勾配型決定木に及ぼす影響とそれらの効果を緩和する方法について,さらに検討することを目的とする。提案手法は,アダルトデータセット上での最先端ノイズ検出性能を実証し,アダルトデータセットと乳がんデータセットの最も高い分類精度とリコールを実現する。本稿では,GBDTにおけるラベルノイズの影響の理解を深め,ノイズ検出・補正手法の今後の研究の基盤となるものについて述べる。

関連論文リスト

Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。 SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文参考訳（メタデータ） (2025-01-19T14:41:55Z)
NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文参考訳（メタデータ） (2024-07-09T06:18:40Z)
Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文参考訳（メタデータ） (2024-04-10T07:34:37Z)
Group Benefits Instances Selection for Data Purification [21.977432359384835]
ラベルノイズと戦う既存の方法は通常、合成データセット上で設計およびテストされる。本稿では,合成および実世界の両方のデータセットに対するノイズラベル問題を緩和するGRIPという手法を提案する。
論文参考訳（メタデータ） (2024-03-23T03:06:19Z)
SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文参考訳（メタデータ） (2024-03-21T08:49:34Z)
Handling Realistic Label Noise in BERT Text Classification [1.0515439489916731]
実ラベルノイズはランダムではなく、入力特徴や他のアノテータ固有の要因と相関することが多い。これらのノイズの存在がBERT分類性能を著しく低下させることを示す。
論文参考訳（メタデータ） (2023-05-23T18:30:31Z)
Learning from Training Dynamics: Identifying Mislabeled Data Beyond Manually Designed Features [43.41573458276422]
LSTMネットワークを例として,ノイズ検出を応用した新しい学習ベースソリューションを提案する。提案手法は、合成ラベル雑音を用いたデータセットを用いて、教師あり方式でノイズ検出器を訓練する。提案手法は, 各種データセットの誤ラベルサンプルを, さらなる適応を伴わずに, 精度良く検出できることが示唆された。
論文参考訳（メタデータ） (2022-12-19T09:39:30Z)
Noisy Label Classification using Label Noise Selection with Test-Time Augmentation Cross-Entropy and NoiseMix Learning [22.02829139522153]
本論文では,テスト時間拡張(TTA)クロスエントロピーを用いたラベルノイズ選択とNossMix法による分類器学習を用いたノイズラベルデータの学習手法を提案する。 ISIC-18公開皮膚病変診断データセットの実験において、提案したTTAクロスエントロピーは、ラベルノイズデータの検出において従来のクロスエントロピーとTTAの不確実性よりも優れていた。
論文参考訳（メタデータ） (2022-12-01T13:05:20Z)
Towards Harnessing Feature Embedding for Robust Learning with Noisy Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文参考訳（メタデータ） (2022-06-27T02:45:09Z)
Robust Meta-learning with Sampling Noise and Label Noise via Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文参考訳（メタデータ） (2022-06-04T08:48:02Z)
Denoising Distantly Supervised Named Entity Recognition via a Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。 HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文参考訳（メタデータ） (2021-06-17T04:01:25Z)
Training Classifiers that are Universally Robust to All Label Noise Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。我々の枠組みは概して中～高騒音レベルにおいて優れています。
論文参考訳（メタデータ） (2021-05-27T13:49:31Z)
Noise-resistant Deep Metric Learning with Ranking-based Instance Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。 PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文参考訳（メタデータ） (2021-03-30T03:22:17Z)
Improving Medical Image Classification with Label Noise Using Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文参考訳（メタデータ） (2021-02-28T14:56:45Z)
Towards Robustness to Label Noise in Text Classification via Noise Modeling [7.863638253070439]
NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。本稿では,ラベルノイズを用いたテキスト分類の問題について検討し,分類器上での補助雑音モデルを用いてこのノイズを捉えることを目的とする。
論文参考訳（メタデータ） (2021-01-27T05:41:57Z)
Tackling Instance-Dependent Label Noise via a Universal Probabilistic Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文参考訳（メタデータ） (2021-01-14T05:43:51Z)
Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。 1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-17T09:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。