論文の概要: Correlation and Unintended Biases on Univariate and Multivariate
Decision Trees
- arxiv url: http://arxiv.org/abs/2312.01884v1
- Date: Mon, 4 Dec 2023 13:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:01:22.085175
- Title: Correlation and Unintended Biases on Univariate and Multivariate
Decision Trees
- Title(参考訳): 一変量および多変量決定木の相関と意図しないバイアス
- Authors: Mattia Setzu and Salvatore Ruggieri
- Abstract要約: 決定木はアクセス可能で、解釈可能で、優れた分類モデルである。
我々は、軸パラレル超平面を介して分割関数を分割する単変数DTと、代わりに超平面を介して分割する多変数DTの2つのファミリを対比する。
- 参考スコア(独自算出の注目度): 11.03214643036954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision Trees are accessible, interpretable, and well-performing
classification models. A plethora of variants with increasing expressiveness
has been proposed in the last forty years. We contrast the two families of
univariate DTs, whose split functions partition data through axis-parallel
hyperplanes, and multivariate DTs, whose splits instead partition data through
oblique hyperplanes. The latter include the former, hence multivariate DTs are
in principle more powerful. Surprisingly enough, however, univariate DTs
consistently show comparable performances in the literature. We analyze the
reasons behind this, both with synthetic and real-world benchmark datasets. Our
research questions test whether the pre-processing phase of removing
correlation among features in datasets has an impact on the relative
performances of univariate vs multivariate DTs. We find that existing benchmark
datasets are likely biased towards favoring univariate DTs.
- Abstract(参考訳): 決定木はアクセス可能で、解釈可能で、優れた分類モデルである。
表現力の増大を伴う多くの変種が過去40年間に提案されている。
我々は、軸パラレル超平面で分割関数を分割する単変数DTと、斜め超平面で分割する多変数DTの2つのファミリを対比する。
後者は前者を含むため、多変量DTは原則としてより強力である。
しかし驚くべきことに、単変量DTは文学における同等のパフォーマンスを一貫して示している。
合成および実世界のベンチマークデータセットの両方で、この背景にある理由を分析します。
本研究は,データセットの特徴間の相関を除去する前処理フェーズが単変量と多変量DTの相対的性能に与える影響を検証した。
既存のベンチマークデータセットは、単変量DTを支持する傾向にある。
関連論文リスト
- VE: Modeling Multivariate Time Series Correlation with Variate Embedding [0.4893345190925178]
現在のチャネル非依存(CI)モデルとCI最終射影層を持つモデルは相関を捉えることができない。
可変埋め込み(VE)パイプラインを提案し,各変数に対して一意かつ一貫した埋め込みを学習する。
VEパイプラインは、CI最終プロジェクション層を持つ任意のモデルに統合して、多変量予測を改善することができる。
論文 参考訳(メタデータ) (2024-09-10T02:49:30Z) - Double Machine Learning meets Panel Data -- Promises, Pitfalls, and Potential Solutions [0.0]
機械学習(ML)アルゴリズムを用いた因果効果の推定は、適切なフレームワークで使用すれば、機能的なフォーム仮定を緩和するのに役立ちます。
我々は、観測されていない異種性の存在下で、パネルデータに機械学習(DML)を適用する方法を示す。
また、観測された共同設立者に対する観測されていない異種性の影響が、ほとんどの代替手法の性能に重要な役割を担っていることも示している。
論文 参考訳(メタデータ) (2024-09-02T13:59:54Z) - Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Model-based causal feature selection for general response types [8.228587135343071]
Invariant causal prediction (ICP) は、不均一な設定からのデータを必要とする因果的特徴選択の手法である。
我々は変換モデル(TRAM)ベースのICPを開発し、連続的、分類的、カウント型、非形式的に検閲された応答を可能にする。
我々は、オープンソースのRパッケージ「tramicp」を提供し、シミュレーションデータに対する我々のアプローチを評価し、重篤な患者の生存の因果的特徴を調査する事例研究を行った。
論文 参考訳(メタデータ) (2023-09-22T12:42:48Z) - How inter-rater variability relates to aleatoric and epistemic
uncertainty: a case study with deep learning-based paraspinal muscle
segmentation [1.9624082208594296]
本研究は, 層間変動が学習アルゴリズムの信頼性に与える影響について検討する。
本研究は,ラベル融合戦略とDLモデルの選択による,ラター間の変動性と不確実性の間の相互作用を明らかにする。
論文 参考訳(メタデータ) (2023-08-14T06:40:20Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Capturing patterns of variation unique to a specific dataset [68.8204255655161]
対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
論文 参考訳(メタデータ) (2021-04-16T15:07:32Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - NestedVAE: Isolating Common Factors via Weak Supervision [45.366986365879505]
我々は、バイアス低減の課題と、ドメイン間で共通する分離要因の関係を同定する。
共通因子を分離するために、潜伏変数モデルの理論と情報ボトルネック理論を組み合わせる。
共有重みを持つ2つの外部VAEは入力を再構成し、潜伏空間を推論し、一方、ネストされたVAEはペア化された画像の潜伏表現から1つの画像の潜伏表現を再構成しようとする。
論文 参考訳(メタデータ) (2020-02-26T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。