論文の概要: Feature Importance in Gradient Boosting Trees with Cross-Validation
Feature Selection
- arxiv url: http://arxiv.org/abs/2109.05468v1
- Date: Sun, 12 Sep 2021 09:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 05:47:05.189756
- Title: Feature Importance in Gradient Boosting Trees with Cross-Validation
Feature Selection
- Title(参考訳): クロスバリデーション特徴選択を伴う傾斜ブースティングツリーの特徴的重要性
- Authors: Afek Ilay Adler and Amichai Painsky
- Abstract要約: 偏りのある基礎学習者がグラディエント・ブースティング・マシン(GBM)の特徴的重要度(FI)測定に与える影響について検討した。
クロスバリデード(CV)非バイアスベース学習者を利用して,この欠陥を比較的低い計算コストで修正する。
提案手法を各種の合成・実世界の構成で実証し, 予測精度を比較的同等に保ちつつ, 全GBM FI尺度に有意な改善が見られた。
- 参考スコア(独自算出の注目度): 11.295032417617454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient Boosting Machines (GBM) are among the go-to algorithms on tabular
data, which produce state of the art results in many prediction tasks. Despite
its popularity, the GBM framework suffers from a fundamental flaw in its base
learners. Specifically, most implementations utilize decision trees that are
typically biased towards categorical variables with large cardinalities. The
effect of this bias was extensively studied over the years, mostly in terms of
predictive performance. In this work, we extend the scope and study the effect
of biased base learners on GBM feature importance (FI) measures. We show that
although these implementation demonstrate highly competitive predictive
performance, they still, surprisingly, suffer from bias in FI. By utilizing
cross-validated (CV) unbiased base learners, we fix this flaw at a relatively
low computational cost. We demonstrate the suggested framework in a variety of
synthetic and real-world setups, showing a significant improvement in all GBM
FI measures while maintaining relatively the same level of prediction accuracy.
- Abstract(参考訳): グラディエントブースティングマシン(GBM)は、表形式のデータに対するゴートアルゴリズムの一つであり、多くの予測タスクで結果の状態を生成する。
その人気にもかかわらず、gbmフレームワークは基本学習者の根本的な欠陥に悩まされている。
特に、ほとんどの実装では、大きな濃度を持つカテゴリ変数に偏った決定木を利用する。
このバイアスの効果は、主に予測性能の観点から、長年にわたって広く研究されてきた。
本研究は,GBM特徴重要度(FI)尺度に対する偏りのある基礎学習者の影響を,対象範囲を拡張して検討する。
これらの実装は高い競争力を持つ予測性能を示すが、それでもFIのバイアスに悩まされている。
クロスバリデード(CV)非バイアスベース学習者を利用して,この欠陥を比較的低い計算コストで修正する。
提案手法を各種の合成・実世界の構成で実証し, 予測精度を比較的同等に保ちながら, 全GBM FI尺度に有意な改善が見られた。
関連論文リスト
- Federated Class-Incremental Learning with Hierarchical Generative Prototypes [10.532838477096055]
Federated Learning (FL)は、複数のデバイス(クライアント)に分散した計算をすることで、ディープモデルのトレーニングを解き放つことを目的としている。
提案手法は,学習可能なプロンプトを用いてトレーニング済みのバックボーンを効率よく微調整することにより,最終層のバイアスを抑える。
提案手法は現状を著しく改善し, 平均精度は+7.8%向上した。
論文 参考訳(メタデータ) (2024-06-04T16:12:27Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - Unbiased Gradient Boosting Decision Tree with Unbiased Feature
Importance [6.700461065769045]
GBDT(Gradient Boosting Decision Tree)のスプリット探索アルゴリズムは、多くの潜在的な分割を持つ機能に対するバイアスとして批判されている。
GBDT における偏差の微粒化解析を行い,各分割の利得推定における系統的偏差が 1) に起因していることを示す。
我々は,非バイアス利得(unbiased gain)について,非バイアス利得(unbiased gain)について,非バイアス利得(out-of-bag)サンプルを用いて検討した。
論文 参考訳(メタデータ) (2023-05-18T04:17:46Z) - Variational Boosted Soft Trees [13.956254007901675]
決定木に基づくグラディエントブースティングマシン(GBM)は、回帰および分類タスクにおける最先端の結果を一貫して示す。
ソフト決定木を用いた変分推論を用いたベイズ型GBMの実装を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:51:08Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。