論文の概要: CLIMB: Class-imbalanced Learning Benchmark on Tabular Data
- arxiv url: http://arxiv.org/abs/2505.17451v1
- Date: Fri, 23 May 2025 04:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.807885
- Title: CLIMB: Class-imbalanced Learning Benchmark on Tabular Data
- Title(参考訳): CLIMB: 語彙データに基づくクラス不均衡学習ベンチマーク
- Authors: Zhining Liu, Zihao Li, Ze Yang, Tianxin Wei, Jian Kang, Yada Zhu, Hendrik Hamann, Jingrui He, Hanghang Tong,
- Abstract要約: クラス不均衡学習(クラス不均衡学習、class-imbalanced learning、CIL)は、マイノリティクラスが重要な結果を持っている多くの実世界のアプリケーションにおいて重要である。
本稿では,クラス不均衡学習のための総合的なベンチマークであるCLIMBを提案する。
CLIMBには、さまざまなドメインと不均衡レベルにわたる73の現実世界データセットと、29の代表的なCILアルゴリズムの統一実装が含まれている。
- 参考スコア(独自算出の注目度): 68.07599497425267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class-imbalanced learning (CIL) on tabular data is important in many real-world applications where the minority class holds the critical but rare outcomes. In this paper, we present CLIMB, a comprehensive benchmark for class-imbalanced learning on tabular data. CLIMB includes 73 real-world datasets across diverse domains and imbalance levels, along with unified implementations of 29 representative CIL algorithms. Built on a high-quality open-source Python package with unified API designs, detailed documentation, and rigorous code quality controls, CLIMB supports easy implementation and comparison between different CIL algorithms. Through extensive experiments, we provide practical insights on method accuracy and efficiency, highlighting the limitations of naive rebalancing, the effectiveness of ensembles, and the importance of data quality. Our code, documentation, and examples are available at https://github.com/ZhiningLiu1998/imbalanced-ensemble.
- Abstract(参考訳): グラフデータ上のクラス不均衡学習(CIL)は、マイノリティクラスが重要ではあるが稀な結果を保持する多くの実世界のアプリケーションにおいて重要である。
本稿では,表型データを用いたクラス不均衡学習のための総合的なベンチマークであるCLIMBを提案する。
CLIMBには、さまざまなドメインと不均衡レベルにわたる73の現実世界データセットと、29の代表的なCILアルゴリズムの統一実装が含まれている。
統一されたAPI設計、詳細なドキュメント、厳密なコード品質管理を備えた、高品質のオープンソースPythonパッケージ上に構築されたCLIMBは、さまざまなCILアルゴリズムの簡単な実装と比較をサポートする。
広範にわたる実験を通じて,本研究は,本手法の精度と効率に関する実践的な洞察を提供し,本手法の限界,アンサンブルの有効性,データ品質の重要性を強調した。
私たちのコード、ドキュメント、例はhttps://github.com/ZhiningLiu1998/im Balanced-ensemble.comで公開されています。
関連論文リスト
- EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Review of Methods for Handling Class-Imbalanced in Classification
Problems [0.0]
場合によっては、あるクラスはほとんどの例を含むが、他方はより重要なクラスであり、しかしながら、少数の例で表される。
本稿では、データレベル、アルゴリズムレベル、ハイブリッド、コスト感受性学習、ディープラーニングを含む、クラス不均衡による学習の問題に対処する最も広く使われている手法について検討する。
論文 参考訳(メタデータ) (2022-11-10T10:07:10Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - A Comparative Study of Calibration Methods for Imbalanced Class
Incremental Learning [10.680349952226935]
不均衡なデータセットから漸進的に学習する問題を考察する。
インクリメンタルな状態にまたがって古いクラスの例を格納するために、バウンダリメモリを使用します。
より単純なバニラファインチューニングは、不均衡なインクリメンタル学習アルゴリズムのための強力なバックボーンであることを示す。
論文 参考訳(メタデータ) (2022-02-01T12:56:17Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Few-Shot Incremental Learning with Continually Evolved Classifiers [46.278573301326276]
Few-shot Class-Incremental Learning(FSCIL)は、いくつかのデータポイントから新しい概念を継続的に学習できる機械学習アルゴリズムの設計を目指している。
難点は、新しいクラスからの限られたデータが、重大な過度な問題を引き起こすだけでなく、破滅的な忘れの問題も悪化させることにある。
我々は,適応のための分類器間のコンテキスト情報を伝達するグラフモデルを用いた連続進化型cif(cec)を提案する。
論文 参考訳(メタデータ) (2021-04-07T10:54:51Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - GLISTER: Generalization based Data Subset Selection for Efficient and
Robust Learning [11.220278271829699]
GeneraLIzationベースのデータSubset selecTion for Efficient and Robust LearningフレームワークであるGlisterを紹介します。
パラメータ更新とともに反復的にデータ選択を行う反復オンラインアルゴリズムglister-onlineを提案する。
筆者らのフレームワークは,(a) と (c) の場合に) 効率, 精度の両面で向上し, 他の最先端の堅牢な学習アルゴリズムと比較して, より効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-19T08:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。