論文の概要: Distance Correlation Sure Independence Screening for Accelerated Feature
Selection in Parkinson's Disease Vocal Data
- arxiv url: http://arxiv.org/abs/2006.12919v1
- Date: Tue, 23 Jun 2020 11:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:08:49.630004
- Title: Distance Correlation Sure Independence Screening for Accelerated Feature
Selection in Parkinson's Disease Vocal Data
- Title(参考訳): パーキンソン病音声データにおける特徴選択のための距離相関型独立スクリーニング
- Authors: Dan Schellhas, Bishal Neupane, Deepak Thammineni, Bhargav Kanumuri,
Robert C. Green II
- Abstract要約: 主成分分析は1901年に開発され、それ以来この役割に強く反対してきた。
選択された機能は、予測されていることを知らないため、優れた予測力を持つという保証はない。
本稿では,パーキンソン病の発声診断データの90倍高速なmRMR選択法について,統計的に区別できない結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the abundance of machine learning methods available and the temptation
of using them all in an ensemble method, having a model-agnostic method of
feature selection is incredibly alluring. Principal component analysis was
developed in 1901 and has been a strong contender in this role since, but in
the end is an unsupervised method. It offers no guarantee that the features
that are selected have good predictive power because it does not know what is
being predicted. To this end, Peng et al. developed the minimum
redundancy-maximum relevance (mRMR) method in 2005. It uses the mutual
information not only between predictors but also includes the mutual
information with the response in its calculation. Estimating mutual information
and entropy tend to be expensive and problematic endeavors, which leads to
excessive processing times even for dataset that is approximately 750 by 750 in
a Leave-One-Subject-Out jackknife situation. To remedy this, we use a method
from 2012 called Distance Correlation Sure Independence Screening (DC-SIS)
which uses the distance correlation measure of Sz\'ekely et al. to select
features that have the greatest dependence with the response. We show that this
method produces statistically indistinguishable results to the mRMR selection
method on Parkinson's Disease vocal diagnosis data 90 times faster.
- Abstract(参考訳): 機械学習の方法が豊富にあり、それらすべてをアンサンブル方式で使う誘惑があるため、モデルに依存しない特徴選択の方法を持つことは、信じられないほど魅力的です。
主成分分析は1901年に開発され、それ以来この役割に強く反対してきたが、結局は教師なしの手法である。
選択された機能は、予測されていることを知らないため、優れた予測力を持つという保証はない。
この目的のために、Pengらは2005年に最小冗長-最大関係法(mRMR)を開発した。
予測者間の情報だけでなく、その計算における応答との相互情報も利用する。
相互情報とエントロピーの推定は高価で問題の多い作業になりがちであり、残余のジャッキニフ状態で約750から750のデータセットでも過剰な処理時間が発生する。
そこで本研究では,2012年の距離相関確実独立性スクリーニング (dc-sis) という手法を用いて,sz\'ekelyらの距離相関尺度を用いて,応答に最も依存する特徴を選択する。
本手法はパーキンソン病の音声診断データにおけるmrmr選択法と統計的に区別できない結果を90倍高速に生成する。
関連論文リスト
- Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - A Bio-Medical Snake Optimizer System Driven by Logarithmic Surviving Global Search for Optimizing Feature Selection and its application for Disorder Recognition [1.3755153408022656]
人間の生命を守ることがいかに重要かを考えると、医療実践を強化することが最重要である。
機械学習技術を用いて患者の予測を自動化することで、医療療法を加速することができる。
この分野における重要な任務のために、いくつかの前処理戦略を採用する必要がある。
論文 参考訳(メタデータ) (2024-02-22T09:08:18Z) - Can input reconstruction be used to directly estimate uncertainty of a
regression U-Net model? -- Application to proton therapy dose prediction for
head and neck cancer patients [0.8343441027226364]
本稿では,別の直接不確実性推定法を提案し,それを回帰U-Netアーキテクチャに適用する。
本手法は頭頸部癌患者に対する陽子線量予測に応用した。
論文 参考訳(メタデータ) (2023-10-30T16:04:34Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Selecting Robust Features for Machine Learning Applications using
Multidata Causal Discovery [7.8814500102882805]
時系列データセットのアンサンブルを同時に処理するマルチデータ因果的特徴選択手法を提案する。
このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。
この枠組みを西太平洋熱帯サイクロンの統計的強度予測に適用する。
論文 参考訳(メタデータ) (2023-04-11T15:43:34Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - Survival Prediction of Children Undergoing Hematopoietic Stem Cell
Transplantation Using Different Machine Learning Classifiers by Performing
Chi-squared Test and Hyper-parameter Optimization: A Retrospective Analysis [4.067706269490143]
効率的な生存率分類モデルが包括的に提示される。
欠落した値を入力し、ダミー変数符号化を用いてデータを変換し、チ二乗特徴選択を用いて59個の特徴から11個の最も相関した特徴にデータセットを圧縮することにより、合成データセットを生成する。
この点に関しては、決定木(Decision Tree)、ランダムフォレスト(Random Forest)、ロジスティック回帰(Logistic Regression)、K-Nearest Neighbors(K-Nearest Neighbors)、グラディエントブースティング(Gradient Boosting)、Ada Boost(Ada Boost)、XG Boost(XG Boost)など、いくつかの教師付きML手法が訓練された。
論文 参考訳(メタデータ) (2022-01-22T08:01:22Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。