論文の概要: Dataset Properties Shape the Success of Neuroimaging-Based Patient Stratification: A Benchmarking Analysis Across Clustering Algorithms
- arxiv url: http://arxiv.org/abs/2503.12066v2
- Date: Tue, 10 Jun 2025 22:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.167282
- Title: Dataset Properties Shape the Success of Neuroimaging-Based Patient Stratification: A Benchmarking Analysis Across Clustering Algorithms
- Title(参考訳): 神経画像に基づく患者階層化の成功を形作るデータセット特性:クラスタリングアルゴリズム間のベンチマーク解析
- Authors: Yuetong Yu, Ruiyang Ge, Ilker Hacihaliloglu, Alexander Rauscher, Roger Tam, Sophia Frangou,
- Abstract要約: 人工脳形態計測コホートを用いて, HYDRA, SuStaIn, SmileGAN, SurrealGANの4つの広く用いられている層状化アルゴリズムについて検討した。
122の合成シナリオにおいて、データの複雑さは、成層化の成功を予測するアルゴリズムの選択を常に上回った。
十分に分離されたクラスターは全ての手法で高い精度を示し、重なり合い、不等サイズ、微妙な効果により精度は最大50%低下した。
- 参考スコア(独自算出の注目度): 38.321248253111776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Background: Data driven stratification of patients into biologically informed subtypes holds promise for precision neuropsychiatry, yet neuroimaging-based clustering methods often fail to generalize across cohorts. While algorithmic innovations have focused on model complexity, the role of underlying dataset characteristics remains underexplored. We hypothesized that cluster separation, size imbalance, noise, and the direction and magnitude of disease-related effects in the input data critically determine both within-algorithm accuracy and reproducibility. Methods: We evaluated 4 widely used stratification algorithms, HYDRA, SuStaIn, SmileGAN, and SurrealGAN, on a suite of synthetic brain-morphometry cohorts derived from the Human Connectome Project Young Adult dataset. Three global transformation patterns were applied to 600 pseudo-patients against 508 controls, followed by 4 within-dataset variations varying cluster count (k=2-6), overlap, and effect magnitude. Algorithm performance was quantified by accuracy in recovering the known ground-truth clusters. Results: Across 122 synthetic scenarios, data complexity consistently outweighed algorithm choice in predicting stratification success. Well-separated clusters yielded high accuracy for all methods, whereas overlapping, unequal-sized, or subtle effects reduced accuracy by up to 50%. SuStaIn could not scale beyond 17 features, HYDRA's accuracy varied unpredictably with data heterogeneity. SmileGAN and SurrealGAN maintained robust pattern detection but did not assign discrete cluster labels to individuals. Conclusions: The study results demonstrate the impact of statistical properties of input data across algorithms and highlight the need for using realistic dataset distributions when new algorithms are being developed and suggest greater focus on data-centric strategies that actively shape and standardize the input distributions.
- Abstract(参考訳): 背景: 生物学的に情報を得たサブタイプへの患者のデータ駆動成層化は、精度の高い神経精神医学の約束を果たすが、神経画像に基づくクラスタリング法はコホート全体にわたって一般化できないことが多い。
アルゴリズムの革新はモデルの複雑さに重点を置いているが、基盤となるデータセットの特徴の役割はいまだ解明されていない。
我々は, クラスタ分離, サイズ不均衡, ノイズ, および入力データにおける疾患関連効果の方向と大きさが, アルゴリズム内精度と再現性の両方を重要視していると仮定した。
方法:Human Connectome Project Young Adult データセットから得られた脳形態計測コホート群を用いて, HYDRA, SuStaIn, SmileGAN, SurrealGANの4つの広く用いられている層状化アルゴリズムを評価した。
3つのグローバルトランスフォーメーションパターンを,600人の偽患者に対して508のコントロールに対して適用し,さらに4つのクラスタ数(k=2-6),オーバーラップ,効果等級について検討した。
アルゴリズムの性能は、既知の地下構造クラスターを復元する際の精度で定量化した。
結果:122の合成シナリオにおいて,データの複雑性は,成層化の成功を予測するアルゴリズムの選択よりもずっと優れていた。
十分に分離されたクラスターは全ての手法で高い精度を示し、重なり合い、不等サイズ、微妙な効果により精度は最大50%低下した。
SuStaInは17以上の機能ではスケールできなかったが、HYDRAの精度はデータの不均一性によって予測不可能に変化した。
SmileGANとSurrealGANは堅牢なパターン検出を維持したが、個別のクラスタラベルを個人に割り当てなかった。
結論: 研究結果は, アルゴリズム間の入力データの統計的特性の影響を実証し, 新たなアルゴリズムが開発されている際には, 現実的なデータセット分布の利用の必要性を強調し, 入力分布を積極的に形成・標準化するデータ中心戦略にもっと焦点をあてることを提案する。
関連論文リスト
- Learning to refine domain knowledge for biological network inference [2.209921757303168]
摂動実験により、生物学者は興味のある変数間の因果関係を発見することができる。
これらのデータの空間性と高次元性は因果構造学習アルゴリズムに重大な課題をもたらす。
そこで本研究では,データ観測に基づくドメイン知識の補修アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:53:23Z) - Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - An Autoencoder and Generative Adversarial Networks Approach for Multi-Omics Data Imbalanced Class Handling and Classification [2.2940141855172036]
分子生物学では、マルチオミクスシークエンシングから生成されるデータの爆発があった。
従来の統計手法は、そのような高次元データを扱う際に難しい課題に直面している。
この研究は、オートエンコーダを組み込んだニューラルネットワークでこれらの課題に取り組むことに焦点を当て、特徴の潜在空間を抽出する。
論文 参考訳(メタデータ) (2024-05-16T01:45:55Z) - Amplifying Pathological Detection in EEG Signaling Pathways through
Cross-Dataset Transfer Learning [10.212217551908525]
実世界の病理分類課題におけるデータとモデルスケーリングとデータセット間の知識伝達の有効性について検討する。
ネガティブトランスファーの可能性の課題を特定し、いくつかの重要なコンポーネントの重要性を強調する。
以上の結果から,小規模で汎用的なモデル(ShallowNetなど)は単一データセット上では良好に動作するが,大規模なモデル(TCNなど)では,大規模かつ多様なデータセットからの転送や学習がより優れていることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T20:09:15Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Object-Attribute Biclustering for Elimination of Missing Genotypes in
Ischemic Stroke Genome-Wide Data [2.0236506875465863]
欠落した遺伝子型は、一般的な疾患や形質の遺伝的変異を識別するための機械学習アプローチの有効性に影響を与える可能性がある。
この問題は、異なるDNAマイクロアレイで異なる実験から遺伝子型データを収集する際に起こり、それぞれが無名(欠失)遺伝子型のパターンによって特徴づけられる。
我々は、オブジェクト-属性・ビクラスタのよく発達した概念と、二項関係の密接な部分関係に対応する形式的概念を用いる。
論文 参考訳(メタデータ) (2020-10-22T12:27:43Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。