論文の概要: Improving GBDT Performance on Imbalanced Datasets: An Empirical Study of Class-Balanced Loss Functions
- arxiv url: http://arxiv.org/abs/2407.14381v1
- Date: Fri, 19 Jul 2024 15:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 17:05:24.164779
- Title: Improving GBDT Performance on Imbalanced Datasets: An Empirical Study of Class-Balanced Loss Functions
- Title(参考訳): 不均衡データセットにおけるGBDT性能の向上:クラスベース損失関数の実証的研究
- Authors: Jiaqi Luo, Yuan Yuan, Shixin Xu,
- Abstract要約: 本稿では,3つのグラディエントブースティング決定木(GBDT)アルゴリズムにクラスバランス損失関数を適用するための総合的研究について述べる。
各種GBDTモデルに対するクラスバランス損失の影響を評価するため,複数のデータセットに対する広範囲な実験を行った。
この結果から,不均衡データセット上でのGBDT性能を向上させるためのクラスバランス損失関数の可能性が示された。
- 参考スコア(独自算出の注目度): 3.559225731091162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class imbalance remains a significant challenge in machine learning, particularly for tabular data classification tasks. While Gradient Boosting Decision Trees (GBDT) models have proven highly effective for such tasks, their performance can be compromised when dealing with imbalanced datasets. This paper presents the first comprehensive study on adapting class-balanced loss functions to three GBDT algorithms across various tabular classification tasks, including binary, multi-class, and multi-label classification. We conduct extensive experiments on multiple datasets to evaluate the impact of class-balanced losses on different GBDT models, establishing a valuable benchmark. Our results demonstrate the potential of class-balanced loss functions to enhance GBDT performance on imbalanced datasets, offering a robust approach for practitioners facing class imbalance challenges in real-world applications. Additionally, we introduce a Python package that facilitates the integration of class-balanced loss functions into GBDT workflows, making these advanced techniques accessible to a wider audience.
- Abstract(参考訳): クラス不均衡は、特に表形式のデータ分類タスクにおいて、マシンラーニングにおいて重要な課題である。
グラディエントブースティング決定木(GBDT)モデルはそのようなタスクに非常に効果的であることが証明されているが、不均衡なデータセットを扱う場合、そのパフォーマンスは損なわれる可能性がある。
本稿では,2進数,多進数,複数ラベルの分類を含む表型分類タスクにおいて,3つのGBDTアルゴリズムにクラスバランス損失関数を適用するための総合的研究について述べる。
各種GBDTモデルに対するクラスバランス損失の影響を評価するため,複数のデータセットに対する広範囲な実験を行い,評価基準を確立した。
本結果は,非バランスなデータセット上でのGBDT性能を向上させるためのクラスバランス型損失関数の可能性を示し,実世界のアプリケーションでクラスバランスの課題に直面している実践者に対して堅牢なアプローチを提供する。
さらに、クラスバランスの取れた損失関数をGBDTワークフローに統合しやすくするPythonパッケージを導入し、これらの高度なテクニックを広く利用できるようにする。
関連論文リスト
- Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Gradient Reweighting: Towards Imbalanced Class-Incremental Learning [8.438092346233054]
CIL(Class-Incremental Learning)は、非定常データから新しいクラスを継続的に認識するためにモデルを訓練する。
CILの大きな課題は、非一様分布を特徴とする実世界のデータに適用する場合である。
この二重不均衡問題により、FC層に偏りのある勾配更新が生じ、CILの過度/過度な適合と破滅的な忘れが引き起こされる。
論文 参考訳(メタデータ) (2024-02-28T18:08:03Z) - Optimizing for ROC Curves on Class-Imbalanced Data by Training over a Family of Loss Functions [3.06506506650274]
重度のクラス不均衡の下で信頼性の高い分類器を訓練することは、コンピュータビジョンにおいて難しい問題である。
近年の研究では、損失関数や最適化方法の変更により、不均衡下でのトレーニングの効果を緩和する手法が提案されている。
単一損失関数ではなく、損失関数の族に対するトレーニングを提案する。
論文 参考訳(メタデータ) (2024-02-08T04:31:21Z) - Simplifying Neural Network Training Under Class Imbalance [77.39968702907817]
実世界のデータセットは、しばしば高いクラス不均衡であり、ディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性がある。
クラス不均衡下でのニューラルネットワークのトレーニングに関する研究の大部分は、特殊な損失関数、サンプリング技術、または2段階のトレーニング手順に焦点を当てている。
バッチサイズやデータ拡張,ラベルの平滑化といった,標準的なディープラーニングパイプラインの既存のコンポーネントを単にチューニングするだけで,そのような特殊なクラス不均衡な手法を使わずに,最先端のパフォーマンスを達成できることを実証する。
論文 参考訳(メタデータ) (2023-12-05T05:52:44Z) - Robust-GBDT: GBDT with Nonconvex Loss for Tabular Classification in the Presence of Label Noise and Class Imbalance [0.40964539027092917]
Robust-GBDTは、ラベルノイズに対する非損失関数のレジリエンスを組み合わせた画期的なアプローチである。
特にノイズや不均衡なデータセットでは、機能を大幅に向上します。
それは、さまざまな現実世界のアプリケーションにまたがる、堅牢で正確な分類の新しい時代への道を開くものだ。
論文 参考訳(メタデータ) (2023-10-08T08:28:40Z) - Class-Imbalanced Graph Learning without Class Rebalancing [62.1368829847041]
クラス不均衡は実世界のノード分類タスクでよく見られ、グラフ学習モデルには大きな課題がある。
本研究では、トポロジカルパラダイムからクラス不均衡バイアスの根本原因にアプローチする。
我々は,クラス再バランスを伴わずにクラス不均衡バイアスを軽減するために,軽量なトポロジカル拡張フレームワークであるBATを考案した。
論文 参考訳(メタデータ) (2023-08-27T19:01:29Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Mitigating Dataset Imbalance via Joint Generation and Classification [17.57577266707809]
教師付きディープラーニング手法は、コンピュータビジョンの多くの実践的応用において大きな成功を収めている。
バイアスや不均衡データに対する顕著な性能劣化は、これらの手法の信頼性に疑問を投げかける。
ニューラルネットワーク分類器とGAN(Generative Adversarial Networks)を組み合わせた共同データセット修復戦略を提案する。
重度のクラス不均衡に対する分類器とGANの堅牢性向上に寄与することを示す。
論文 参考訳(メタデータ) (2020-08-12T18:40:38Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。