Fugu-MT 論文翻訳(概要): Comparative Analysis of Data Preprocessing Methods, Feature Selection Techniques and Machine Learning Models for Improved Classification and Regression Performance on Imbalanced Genetic Data

論文の概要: Comparative Analysis of Data Preprocessing Methods, Feature Selection Techniques and Machine Learning Models for Improved Classification and Regression Performance on Imbalanced Genetic Data

arxiv url: http://arxiv.org/abs/2402.14980v1
Date: Thu, 22 Feb 2024 21:41:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 16:18:55.081982
Title: Comparative Analysis of Data Preprocessing Methods, Feature Selection Techniques and Machine Learning Models for Improved Classification and Regression Performance on Imbalanced Genetic Data
Title（参考訳）: 不均衡遺伝データの分類・回帰性能向上のためのデータ前処理方法、特徴選択手法、機械学習モデルの比較分析
Authors: Arshmeet Kaur and Morteza Sarmadi
Abstract要約: 本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rapid advancements in genome sequencing have led to the collection of vast amounts of genomics data. Researchers may be interested in using machine learning models on such data to predict the pathogenicity or clinical significance of a genetic mutation. However, many genetic datasets contain imbalanced target variables that pose challenges to machine learning models: observations are skewed/imbalanced in regression tasks or class-imbalanced in classification tasks. Genetic datasets are also often high-cardinal and contain skewed predictor variables, which poses further challenges. We aimed to investigate the effects of data preprocessing, feature selection techniques, and model selection on the performance of models trained on these datasets. We measured performance with 5-fold cross-validation and compared averaged r-squared and accuracy metrics across different combinations of techniques. We found that outliers/skew in predictor or target variables did not pose a challenge to regression models. We also found that class-imbalanced target variables and skewed predictors had little to no impact on classification performance. Random forest was the best model to use for imbalanced regression tasks. While our study uses a genetic dataset as an example of a real-world application, our findings can be generalized to any similar datasets.
Abstract（参考訳）: ゲノムシーケンシングの急速な進歩は、膨大な量のゲノムデータの収集につながった。研究者は、そのようなデータで機械学習モデルを使用して遺伝子変異の病原性や臨床的意義を予測することに興味があるかもしれない。しかし、多くの遺伝的データセットには、機械学習モデルに問題をもたらす不均衡な目標変数が含まれている。遺伝的データセットは、しばしば高心的であり、歪んだ予測変数を含んでいる。データ前処理,特徴選択,モデル選択がこれらのデータセット上で訓練されたモデルの性能に与える影響について検討することを目的とした。 5倍のクロスバリデーションで性能を測定し,異なる組み合わせによる平均r2乗と精度の比較を行った。予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。また,クラス不均衡な目標変数と歪んだ予測器は分類性能にほとんど影響を与えなかった。ランダムフォレストが不均衡回帰タスクに最適なモデルであった。本研究は,実世界の応用例として遺伝的データセットを用いるが,類似したデータセットには一般化できる。

関連論文リスト

Training Flexible Models of Genetic Variant Effects from Functional Annotations using Accelerated Linear Algebra [44.253701408005895]
提案手法は,大規模ニューラルネットワーク予測モデルを用いてオプティマイザを最適化するDeepWASを開発するための手法である。より多くの機能でトレーニングされたより大きなモデルは、より良い予測をし、病気の予測を改善し、治療対象の識別を改善する可能性がある。
論文参考訳（メタデータ） (2025-06-24T13:07:45Z)
Stabilizing Machine Learning for Reproducible and Explainable Results: A Novel Validation Approach to Subject-Specific Insights [2.7516838144367735]
本稿では,一般的なMLモデルを用いて再現可能な性能とロバストな特徴重要度分析を保証する新しい検証手法を提案する。ドメイン、サンプルサイズ、人口統計の異なる9つのデータセットに対して、1つのランダムフォレスト(RF)モデルをテストしました。被験者レベルでの重要な特徴を一貫して同定し,グループレベルの特徴重要度分析を改善した。
論文参考訳（メタデータ） (2024-12-16T23:14:26Z)
Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文参考訳（メタデータ） (2024-04-04T00:49:05Z)
Predicting loss-of-function impact of genetic mutations: a machine learning approach [0.0]
本稿では,遺伝子変異の属性に基づいて機械学習モデルを学習し,LoFtoolスコアを予測することを目的とする。これらの属性には、染色体上の突然変異の位置、アミノ酸の変化、変異によって引き起こされるコドンの変化が含まれていた。モデルは, 平均2乗誤差, 平均2乗誤差, 平均2乗誤差, 平均絶対誤差, 説明分散の5倍のクロスバリデード平均を用いて評価した。
論文参考訳（メタデータ） (2024-01-26T19:27:38Z)
The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文参考訳（メタデータ） (2023-09-13T10:40:41Z)
A prediction and behavioural analysis of machine learning methods for modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文参考訳（メタデータ） (2023-01-11T11:10:32Z)
Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文参考訳（メタデータ） (2022-10-24T08:57:55Z)
Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文参考訳（メタデータ） (2022-10-04T17:55:50Z)
Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文参考訳（メタデータ） (2021-12-15T18:56:39Z)
X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。両世界の力を生かすために,我々は新しいX-モデルを提案する。 X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文参考訳（メタデータ） (2021-10-09T13:56:48Z)
Variable selection with missing data in both covariates and outcomes: Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。機械学習はパラメトリックな仮定を弱める。 XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文参考訳（メタデータ） (2021-04-06T20:18:29Z)
Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文参考訳（メタデータ） (2020-09-02T02:50:30Z)
Two-step penalised logistic regression for multi-omic data with an application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文参考訳（メタデータ） (2020-08-01T10:36:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。