論文の概要: Correlation and Unintended Biases on Univariate and Multivariate
Decision Trees
- arxiv url: http://arxiv.org/abs/2312.01884v1
- Date: Mon, 4 Dec 2023 13:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:01:22.085175
- Title: Correlation and Unintended Biases on Univariate and Multivariate
Decision Trees
- Title(参考訳): 一変量および多変量決定木の相関と意図しないバイアス
- Authors: Mattia Setzu and Salvatore Ruggieri
- Abstract要約: 決定木はアクセス可能で、解釈可能で、優れた分類モデルである。
我々は、軸パラレル超平面を介して分割関数を分割する単変数DTと、代わりに超平面を介して分割する多変数DTの2つのファミリを対比する。
- 参考スコア(独自算出の注目度): 11.03214643036954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision Trees are accessible, interpretable, and well-performing
classification models. A plethora of variants with increasing expressiveness
has been proposed in the last forty years. We contrast the two families of
univariate DTs, whose split functions partition data through axis-parallel
hyperplanes, and multivariate DTs, whose splits instead partition data through
oblique hyperplanes. The latter include the former, hence multivariate DTs are
in principle more powerful. Surprisingly enough, however, univariate DTs
consistently show comparable performances in the literature. We analyze the
reasons behind this, both with synthetic and real-world benchmark datasets. Our
research questions test whether the pre-processing phase of removing
correlation among features in datasets has an impact on the relative
performances of univariate vs multivariate DTs. We find that existing benchmark
datasets are likely biased towards favoring univariate DTs.
- Abstract(参考訳): 決定木はアクセス可能で、解釈可能で、優れた分類モデルである。
表現力の増大を伴う多くの変種が過去40年間に提案されている。
我々は、軸パラレル超平面で分割関数を分割する単変数DTと、斜め超平面で分割する多変数DTの2つのファミリを対比する。
後者は前者を含むため、多変量DTは原則としてより強力である。
しかし驚くべきことに、単変量DTは文学における同等のパフォーマンスを一貫して示している。
合成および実世界のベンチマークデータセットの両方で、この背景にある理由を分析します。
本研究は,データセットの特徴間の相関を除去する前処理フェーズが単変量と多変量DTの相対的性能に与える影響を検証した。
既存のベンチマークデータセットは、単変量DTを支持する傾向にある。
関連論文リスト
- Causal Discovery under Identifiable Heteroscedastic Noise Model [50.23769985430187]
因果DAG学習は、最近精度と効率の両面で有望な性能を達成した。
本稿では,変数間のノイズ分散の変動を考慮したDAG学習のための新しい定式化を提案する。
次に、最適化の難しさに対処する効果的な2相反復DAG学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:51:58Z) - Model-based causal feature selection for general response types [8.228587135343071]
Invariant causal prediction (ICP) は、不均一な設定からのデータを必要とする因果的特徴選択の手法である。
我々は変換モデル(TRAM)ベースのICPを開発し、連続的、分類的、カウント型、非形式的に検閲された応答を可能にする。
我々は、オープンソースのRパッケージ「tramicp」を提供し、シミュレーションデータに対する我々のアプローチを評価し、重篤な患者の生存の因果的特徴を調査する事例研究を行った。
論文 参考訳(メタデータ) (2023-09-22T12:42:48Z) - How inter-rater variability relates to aleatoric and epistemic
uncertainty: a case study with deep learning-based paraspinal muscle
segmentation [1.9624082208594296]
本研究は, 層間変動が学習アルゴリズムの信頼性に与える影響について検討する。
本研究は,ラベル融合戦略とDLモデルの選択による,ラター間の変動性と不確実性の間の相互作用を明らかにする。
論文 参考訳(メタデータ) (2023-08-14T06:40:20Z) - Understanding Pathologies of Deep Heteroskedastic Regression [25.509884677111344]
ヘテロスケダスティックモデルは各データポイントの平均ノイズと残留ノイズの両方を予測する。
極端に言えば、これらのモデルはすべてのトレーニングデータを完璧に適合させ、残音を完全に排除する。
他方では、一定で非形式的な平均を予測しながら残音を過度に補正する。
中間地盤の欠如を観察し, モデル正則化強度に依存する相転移を示唆した。
論文 参考訳(メタデータ) (2023-06-29T06:31:27Z) - A VAE Approach to Sample Multivariate Extremes [6.548734807475054]
本稿では,重み付き分布をサンプリングするための変分オートエンコーダ(VAE)アプローチについて述べる。
本研究は,ドナウ川流域における人工的データセットと実測値との関係について述べる。
テストデータセットの標準VAEよりも優れているだけでなく、競合するEVTベースの生成手法との比較も提供する。
論文 参考訳(メタデータ) (2023-06-19T14:53:40Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Capturing patterns of variation unique to a specific dataset [68.8204255655161]
対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
論文 参考訳(メタデータ) (2021-04-16T15:07:32Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Transformer-based Multi-Aspect Modeling for Multi-Aspect Multi-Sentiment
Analysis [56.893393134328996]
本稿では,複数の側面間の潜在的な関係を抽出し,文中のすべての側面の感情を同時に検出できるトランスフォーマーベースのマルチアスペクトモデリング手法を提案する。
本手法はBERTやRoBERTaといった強力なベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2020-11-01T11:06:31Z) - NestedVAE: Isolating Common Factors via Weak Supervision [45.366986365879505]
我々は、バイアス低減の課題と、ドメイン間で共通する分離要因の関係を同定する。
共通因子を分離するために、潜伏変数モデルの理論と情報ボトルネック理論を組み合わせる。
共有重みを持つ2つの外部VAEは入力を再構成し、潜伏空間を推論し、一方、ネストされたVAEはペア化された画像の潜伏表現から1つの画像の潜伏表現を再構成しようとする。
論文 参考訳(メタデータ) (2020-02-26T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。