論文の概要: The Conditioning Bias in Binary Decision Trees and Random Forests and
Its Elimination
- arxiv url: http://arxiv.org/abs/2312.10708v1
- Date: Sun, 17 Dec 2023 12:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:57:45.405041
- Title: The Conditioning Bias in Binary Decision Trees and Random Forests and
Its Elimination
- Title(参考訳): 二分決定木とランダム林における条件バイアスとその除去
- Authors: G\'abor Tim\'ar, Gy\"orgy Kov\'acs
- Abstract要約: 格子特性を持つ特徴が存在する場合の条件付き演算子の選択によって生じるバイアスについて検討する。
我々は、このバイアスを排除し、決定木によるさらなる予測を必要とし、無作為な森林のコストを発生させない手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decision tree and random forest classification and regression are some of the
most widely used in machine learning approaches. Binary decision tree
implementations commonly use conditioning in the form 'feature $\leq$ (or $<$)
threshold', with the threshold being the midpoint between two observed feature
values. In this paper, we investigate the bias introduced by the choice of
conditioning operator (an intrinsic property of implementations) in the
presence of features with lattice characteristics. We propose techniques to
eliminate this bias, requiring an additional prediction with decision trees and
incurring no cost for random forests. Using 20 classification and 20 regression
datasets, we demonstrate that the bias can lead to statistically significant
differences in terms of AUC and $r^2$ scores. The proposed techniques
successfully mitigate the bias, compared to the worst-case scenario,
statistically significant improvements of up to 0.1-0.2 percentage points of
AUC and $r^2$ scores were achieved and the improvement of 1.5 percentage points
of $r^2$ score was measured in the most sensitive case of random forest
regression. The implementation of the study is available on GitHub at the
following repository: \url{https://github.com/gykovacs/conditioning_bias}.
- Abstract(参考訳): 決定木と無作為な森林分類と回帰は機械学習のアプローチで最も広く使われている。
バイナリ決定木の実装では、通常‘feature $\leq$(または$<$)しきい値’という形式で条件付けを使用し、しきい値が観察された2つの特徴値の中間点である。
本稿では,条件付き演算子(実装の本質的特性)の選択による格子特性を持つ特徴の存在下でのバイアスについて検討する。
我々は,このバイアスを解消する手法を提案し,決定木によるさらなる予測とランダム林のコストを発生させないことを求めた。
20の分類と20の回帰データセットを用いて、AUCと$r^2$のスコアで統計的に有意な差が生じることを示した。
提案手法は, 最悪のシナリオと比較して, AUCの0.1-0.2ポイントと$r^2$スコアの統計的に有意な改善が達成され, 最も敏感な森林回帰の場合, 1.5ポイントの$r^2$スコアの改善が測定された。
この研究の実装は以下のリポジトリでgithubで入手できる。
関連論文リスト
- Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Inference with Mondrian Random Forests [6.97762648094816]
我々は、モンドリアンのランダムな森林回帰推定器に対して、ベリー・エッセイン型中央極限定理とともに、正確なバイアスと分散特性を与える。
未知回帰関数に対する有効な統計的推測法を提案する。
効率的で実装可能なアルゴリズムは、バッチとオンラインの学習設定の両方に考案されている。
論文 参考訳(メタデータ) (2023-10-15T01:41:42Z) - Variational Boosted Soft Trees [13.956254007901675]
決定木に基づくグラディエントブースティングマシン(GBM)は、回帰および分類タスクにおける最先端の結果を一貫して示す。
ソフト決定木を用いた変分推論を用いたベイズ型GBMの実装を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:51:08Z) - Partial and Asymmetric Contrastive Learning for Out-of-Distribution
Detection in Long-Tailed Recognition [80.07843757970923]
既存のOOD検出手法は,トレーニングセットが長距離分布している場合,大幅な性能劣化に悩まされていることを示す。
本稿では,部分的および非対称的な教師付きコントラスト学習(PASCL)を提案する。
我々の手法は従来の最先端の手法を1.29%$, $1.45%$, $0.69%$異常検出偽陽性率(FPR)と$3.24%$, 4,.06%$, 7,89%$in-distributionで上回ります。
論文 参考訳(メタデータ) (2022-07-04T01:53:07Z) - On multivariate randomized classification trees: $l_0$-based sparsity,
VC~dimension and decomposition methods [0.9346127431927981]
Blanquero et alで提案された非線形連続最適化の定式化について検討する。
我々はまず、$l_0$ノルムの凹凸近似に基づいて、そのような木をスパース化する代替手法を検討する。
より大規模なデータセットを用いた実験により,提案手法は精度を損なうことなく,学習時間を著しく短縮できることが示された。
論文 参考訳(メタデータ) (2021-12-09T22:49:08Z) - Data-driven advice for interpreting local and global model predictions
in bioinformatics problems [17.685881417954782]
条件付き特徴コントリビューション(CFC)は、予測のテキストローカルでケースバイケースの説明を提供する。
両手法で計算した説明を, 公開されている164の分類問題に対して比較した。
ランダム林では,地域とグローバルのSHAP値とCFCスコアの相関関係が極めて高い。
論文 参考訳(メタデータ) (2021-08-13T12:41:39Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - On the robustness of randomized classifiers to adversarial examples [11.359085303200981]
確率指標を用いて局所リプシッツ性を強制するランダム化分類器の堅牢性の新しい概念を紹介する。
本研究の結果は,温和な仮説下での幅広い機械学習モデルに適用可能であることを示す。
トレーニングしたすべての堅牢なモデルは、最新の精度を同時に達成できます。
論文 参考訳(メタデータ) (2021-02-22T10:16:58Z) - Conditional Uncorrelation and Efficient Non-approximate Subset Selection
in Sparse Regression [72.84177488527398]
相関性の観点からスパース回帰を考察し,条件付き非相関式を提案する。
提案手法により、計算複雑性は、スパース回帰における各候補部分集合に対して$O(frac16k3+mk2+mkd)$から$O(frac16k3+frac12mk2)$に削減される。
論文 参考訳(メタデータ) (2020-09-08T20:32:26Z) - Censored Quantile Regression Forest [81.9098291337097]
我々は、検閲に適応し、データが検閲を示さないときに量子スコアをもたらす新しい推定方程式を開発する。
提案手法は, パラメトリックなモデリング仮定を使わずに, 時間単位の定量を推定することができる。
論文 参考訳(メタデータ) (2020-01-08T23:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。