論文の概要: Towards understanding the bias in decision trees
- arxiv url: http://arxiv.org/abs/2501.04903v1
- Date: Thu, 09 Jan 2025 01:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:33.821478
- Title: Towards understanding the bias in decision trees
- Title(参考訳): 決定木におけるバイアスの理解に向けて
- Authors: Nathan Phelps, Daniel J. Lizotte, Douglas G. Woolford,
- Abstract要約: この信念は必ずしも決定木に対して正しいものではなく、そのバイアスが実際には反対方向にあることを示しています。
本研究は,無作為林など,一般的な樹木モデルの利用に影響を及ぼすものである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: There is a widespread and longstanding belief that machine learning models are biased towards the majority (or negative) class when learning from imbalanced data, leading them to neglect or ignore the minority (or positive) class. In this study, we show that this belief is not necessarily correct for decision trees, and that their bias can actually be in the opposite direction. Motivated by a recent simulation study that suggested that decision trees can be biased towards the minority class, our paper aims to reconcile the conflict between that study and decades of other works. First, we critically evaluate past literature on this problem, finding that failing to consider the data generating process has led to incorrect conclusions about the bias in decision trees. We then prove that, under specific conditions related to the predictors, decision trees fit to purity and trained on a dataset with only one positive case are biased towards the minority class. Finally, we demonstrate that splits in a decision tree are also biased when there is more than one positive case. Our findings have implications on the use of popular tree-based models, such as random forests.
- Abstract(参考訳): 不均衡なデータから学習すると、機械学習モデルは多数(あるいは負)のクラスに偏り、少数(または正)のクラスを無視または無視する、という広くかつ長年の信念がある。
本研究では,この信念は必ずしも決定木に対して正しいものではなく,そのバイアスが実際には反対方向にあることを示す。
本稿は,意思決定木がマイノリティ階級に偏見を抱くことを示唆する最近のシミュレーション研究に触発され,その研究と数十年にわたる他の研究の対立を和らげることを目的としている。
まず、この問題に関する過去の文献を批判的に評価し、データ生成プロセスの検討に失敗すると、決定木におけるバイアスに関する誤った結論が導かれることを発見した。
次に、予測器に関連する特定の条件下では、決定木は純度に適合し、1つの正のケースしか持たないデータセットで訓練され、マイノリティクラスに偏っていることを証明した。
最後に、決定木内の分割が、複数の正のケースがある場合にも偏りがあることを実証する。
本研究は,無作為林など,一般的な樹木モデルの利用に影響を及ぼすものである。
関連論文リスト
- Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - Evaluating Bias and Fairness in Gender-Neutral Pretrained
Vision-and-Language Models [23.65626682262062]
我々は,3種類の視覚・言語モデルを用いた事前学習および微調整後のバイアス増幅の定量化を行う。
全体として、事前学習および微調整後のバイアス増幅は独立である。
論文 参考訳(メタデータ) (2023-10-26T16:19:19Z) - Dissecting Causal Biases [0.0]
本稿では,トレーニングデータの生成方法や収集方法に起因したバイアスのクラスに焦点を当てる。
バイアスの4つの源、すなわち、境界、選択、測定、相互作用が考慮されている。
論文 参考訳(メタデータ) (2023-10-20T09:12:10Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - Certifying Robustness to Programmable Data Bias in Decision Trees [12.060443368097102]
学習者が生成したモデルは、潜在的なデータセットバイアスに対してポイントワイズで損なわれていることを証明します。
このアプローチでは,さまざまな次元にまたがるバイアスモデルを指定することが可能です。
フェアネス文献でよく用いられるデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-10-08T20:15:17Z) - Bias in Machine Learning Software: Why? How? What to do? [15.525314212209564]
本稿では、バイアスの根本原因が、(a)選択したデータに影響を及ぼす事前決定と、(b)それらの事例に割り当てられたラベルである、と仮定する。
我々のFair-SMOTEアルゴリズムはバイアス付きラベルを除去し、感度特性に基づいて、サンプルが正クラスと負のクラスの両方で等しいような内部分布を再バランスさせる。
論文 参考訳(メタデータ) (2021-05-25T20:15:50Z) - Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem [1.5749416770494704]
一般的な実証的戦略は、利用可能なデータから関心のある変数を'マイニング'する予測モデリング手法の適用を含む。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
ランダムフォレストと呼ばれるアンサンブル学習技術を用いて,これらのバイアスを軽減する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-19T21:48:23Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Fairness Through Robustness: Investigating Robustness Disparity in Deep
Learning [61.93730166203915]
我々は、モデルが敵の攻撃に弱い場合、従来の公平性の概念では不十分であると主張する。
頑健性バイアスを測定することはDNNにとって難しい課題であり,この2つの方法を提案する。
論文 参考訳(メタデータ) (2020-06-17T22:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。