論文の概要: Impact of Data Patterns on Biotype identification Using Machine Learning
- arxiv url: http://arxiv.org/abs/2503.12066v1
- Date: Sat, 15 Mar 2025 09:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.69787
- Title: Impact of Data Patterns on Biotype identification Using Machine Learning
- Title(参考訳): 機械学習を用いたバイオタイプ識別におけるデータパターンの影響
- Authors: Yuetong Yu, Ruiyang Ge, Ilker Hacihaliloglu, Alexander Rauscher, Roger Tam, Sophia Frangou,
- Abstract要約: 本研究では, 合成脳形態計測データを用いて, アルゴリズム性能に対するデータパターンの寄与について検討した。
SuStaInは17以上の変数を持つデータセットの処理に失敗し、計算の非効率性を強調した。
SmileGANとSurrealGANは、変数ベースの疾患パターンを識別する他のアルゴリズムよりも優れているが、これらのパターンは個々のレベルの分類を提供することができなかった。
- 参考スコア(独自算出の注目度): 38.321248253111776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Background: Patient stratification in brain disorders remains a significant challenge, despite advances in machine learning and multimodal neuroimaging. Automated machine learning algorithms have been widely applied for identifying patient subtypes (biotypes), but results have been inconsistent across studies. These inconsistencies are often attributed to algorithmic limitations, yet an overlooked factor may be the statistical properties of the input data. This study investigates the contribution of data patterns on algorithm performance by leveraging synthetic brain morphometry data as an exemplar. Methods: Four widely used algorithms-SuStaIn, HYDRA, SmileGAN, and SurrealGAN were evaluated using multiple synthetic pseudo-patient datasets designed to include varying numbers and sizes of clusters and degrees of complexity of morphometric changes. Ground truth, representing predefined clusters, allowed for the evaluation of performance accuracy across algorithms and datasets. Results: SuStaIn failed to process datasets with more than 17 variables, highlighting computational inefficiencies. HYDRA was able to perform individual-level classification in multiple datasets with no clear pattern explaining failures. SmileGAN and SurrealGAN outperformed other algorithms in identifying variable-based disease patterns, but these patterns were not able to provide individual-level classification. Conclusions: Dataset characteristics significantly influence algorithm performance, often more than algorithmic design. The findings emphasize the need for rigorous validation using synthetic data before real-world application and highlight the limitations of current clustering approaches in capturing the heterogeneity of brain disorders. These insights extend beyond neuroimaging and have implications for machine learning applications in biomedical research.
- Abstract(参考訳): 背景: 機械学習やマルチモーダル・ニューロイメージングの進歩にもかかわらず、脳障害の患者層化は依然として大きな課題である。
自動機械学習アルゴリズムは患者サブタイプ(バイオタイプ)の同定に広く応用されてきたが、その結果は研究全体で矛盾している。
これらの矛盾はしばしばアルゴリズム上の制限によるものであるが、見落とされた要因は入力データの統計的特性である。
本研究では, 合成脳形態計測データを用いて, アルゴリズム性能に対するデータパターンの寄与について検討した。
方法】SuStaIn,HYDRA,SmileGAN,SurrealGANの4つのアルゴリズムを,クラスタの数やサイズ,形態的変化の度合いなどを含むように設計された,複数の擬似患者データセットを用いて評価した。
事前に定義されたクラスタを表す地上の真実は、アルゴリズムとデータセット間でパフォーマンスの正確さを評価することを可能にする。
結果: SuStaInは17以上の変数を持つデータセットの処理に失敗し、計算の非効率性を強調した。
HYDRAは、障害を説明する明確なパターンなしで、複数のデータセットで個別レベルの分類を行うことができた。
SmileGANとSurrealGANは、変数ベースの疾患パターンを識別する他のアルゴリズムよりも優れているが、これらのパターンは個々のレベルの分類を提供することができなかった。
結論: データセットの特徴はアルゴリズムの性能に大きく影響します。
この知見は、実世界の応用前に合成データを用いた厳密な検証の必要性を強調し、脳障害の均一性を捉えるための現在のクラスタリングアプローチの限界を強調した。
これらの知見は神経イメージングを超えて、バイオメディカル研究における機械学習応用に影響を及ぼす。
関連論文リスト
- Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Precision Adaptive Imputation Network : An Unified Technique for Mixed Datasets [0.0]
本研究では,データ再構成の高速化を目的とした新しいアルゴリズムである精度適応型インダクタンスネットワーク(PAIN)を紹介する。
PAINは統計手法、ランダム森林、オートエンコーダを統合する三段階プロセスを採用し、計算精度と効率のバランスを確保する。
この結果は、特に欠如が完全にランダムではない複雑なシナリオにおいて、データ分散を保存し、分析的整合性を維持するPAINの優れた能力を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:22:27Z) - Learning to refine domain knowledge for biological network inference [2.209921757303168]
摂動実験により、生物学者は興味のある変数間の因果関係を発見することができる。
これらのデータの空間性と高次元性は因果構造学習アルゴリズムに重大な課題をもたらす。
そこで本研究では,データ観測に基づくドメイン知識の補修アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:53:23Z) - Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - An Autoencoder and Generative Adversarial Networks Approach for Multi-Omics Data Imbalanced Class Handling and Classification [2.2940141855172036]
分子生物学では、マルチオミクスシークエンシングから生成されるデータの爆発があった。
従来の統計手法は、そのような高次元データを扱う際に難しい課題に直面している。
この研究は、オートエンコーダを組み込んだニューラルネットワークでこれらの課題に取り組むことに焦点を当て、特徴の潜在空間を抽出する。
論文 参考訳(メタデータ) (2024-05-16T01:45:55Z) - Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Amplifying Pathological Detection in EEG Signaling Pathways through
Cross-Dataset Transfer Learning [10.212217551908525]
実世界の病理分類課題におけるデータとモデルスケーリングとデータセット間の知識伝達の有効性について検討する。
ネガティブトランスファーの可能性の課題を特定し、いくつかの重要なコンポーネントの重要性を強調する。
以上の結果から,小規模で汎用的なモデル(ShallowNetなど)は単一データセット上では良好に動作するが,大規模なモデル(TCNなど)では,大規模かつ多様なデータセットからの転送や学習がより優れていることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T20:09:15Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Tk-merge: Computationally Efficient Robust Clustering Under General
Assumptions [0.0]
トリミングされたk平均と階層的アグロメレーションに基づく2段階のハイブリッドロバストクラスタリングアルゴリズムを提案する。
また、本手法の自然な一般化と、データ駆動方式で汚染量を推定する適応的な手順を提案する。
論文 参考訳(メタデータ) (2022-01-17T13:05:05Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Object-Attribute Biclustering for Elimination of Missing Genotypes in
Ischemic Stroke Genome-Wide Data [2.0236506875465863]
欠落した遺伝子型は、一般的な疾患や形質の遺伝的変異を識別するための機械学習アプローチの有効性に影響を与える可能性がある。
この問題は、異なるDNAマイクロアレイで異なる実験から遺伝子型データを収集する際に起こり、それぞれが無名(欠失)遺伝子型のパターンによって特徴づけられる。
我々は、オブジェクト-属性・ビクラスタのよく発達した概念と、二項関係の密接な部分関係に対応する形式的概念を用いる。
論文 参考訳(メタデータ) (2020-10-22T12:27:43Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。