論文の概要: Robust-GBDT: GBDT with Nonconvex Loss for Tabular Classification in the Presence of Label Noise and Class Imbalance
- arxiv url: http://arxiv.org/abs/2310.05067v2
- Date: Sat, 16 Mar 2024 01:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:32:38.135603
- Title: Robust-GBDT: GBDT with Nonconvex Loss for Tabular Classification in the Presence of Label Noise and Class Imbalance
- Title(参考訳): Robust-GBDT: ラベルノイズとクラス不均衡の有無による語彙分類のための非凸損失GBDT
- Authors: Jiaqi Luo, Yuedong Quan, Shixin Xu,
- Abstract要約: Robust-GBDTは、ラベルノイズに対する非損失関数のレジリエンスを組み合わせた画期的なアプローチである。
特にノイズや不均衡なデータセットでは、機能を大幅に向上します。
それは、さまざまな現実世界のアプリケーションにまたがる、堅牢で正確な分類の新しい時代への道を開くものだ。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dealing with label noise in tabular classification tasks poses a persistent challenge in machine learning. While robust boosting methods have shown promise in binary classification, their effectiveness in complex, multi-class scenarios is often limited. Additionally, issues like imbalanced datasets, missing values, and computational inefficiencies further complicate their practical utility. This study introduces Robust-GBDT, a groundbreaking approach that combines the power of Gradient Boosted Decision Trees (GBDT) with the resilience of nonconvex loss functions against label noise. By leveraging local convexity within specific regions, Robust-GBDT demonstrates unprecedented robustness, challenging conventional wisdom. Through seamless integration of advanced GBDT with a novel Robust Focal Loss tailored for class imbalance, Robust-GBDT significantly enhances generalization capabilities, particularly in noisy and imbalanced datasets. Notably, its user-friendly design facilitates integration with existing open-source code, enhancing computational efficiency and scalability. Extensive experiments validate Robust-GBDT's superiority over other noise-robust methods, establishing a new standard for accurate classification amidst label noise. This research heralds a paradigm shift in machine learning, paving the way for a new era of robust and precise classification across diverse real-world applications.
- Abstract(参考訳): 表の分類タスクにおけるラベルノイズへの対処は、機械学習において永続的な課題となる。
堅牢なブースティング手法はバイナリ分類において有望であることを示しているが、複雑なマルチクラスシナリオにおけるそれらの有効性はしばしば制限されている。
さらに、不均衡なデータセット、欠落した値、計算の非効率といった問題は、その実用性をさらに複雑にする。
本稿では,GBDT(Gradient Boosted Decision Trees)のパワーと,ラベルノイズに対する非凸損失関数のレジリエンスを組み合わせた,画期的なアプローチであるRobust-GBDTを紹介する。
特定の領域における局所凸性を活用することで、Robust-GBDTは前例のない頑丈さを示し、従来の知恵に挑戦する。
高度なGBDTとクラス不均衡に適した新しいRobust Focal Lossとのシームレスな統合により、特にノイズや不均衡なデータセットにおいて、Robust-GBDTは一般化能力を著しく向上する。
そのユーザフレンドリな設計は、既存のオープンソースコードとの統合を容易にし、計算効率とスケーラビリティを向上させる。
広汎な実験により、ロバストGBDTは、他のノイズ汚染法よりも優れていることが検証され、ラベルノイズの中で正確な分類のための新しい標準が確立された。
この研究は機械学習のパラダイムシフトを象徴し、さまざまな現実世界のアプリケーションにまたがる、堅牢で正確な分類の新しい時代への道を歩む。
関連論文リスト
- SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling [29.744621356187764]
本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
論文 参考訳(メタデータ) (2023-02-17T02:40:04Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Robustness and reliability when training with noisy labels [12.688634089849023]
教師付き学習のためのデータの遅延は、コストと時間を要する可能性がある。
ディープニューラルネットワークは、ランダムラベルの適合、正規化、ロバストな損失関数の使用を証明している。
論文 参考訳(メタデータ) (2021-10-07T10:30:20Z) - Open-set Label Noise Can Improve Robustness Against Inherent Label Noise [27.885927200376386]
オープンセットノイズラベルは非毒性であり, 固有ノイズラベルに対するロバスト性にも寄与することを示した。
本研究では,動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することで,シンプルかつ効果的な正規化を提案する。
論文 参考訳(メタデータ) (2021-06-21T07:15:50Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。