論文の概要: Comparative analysis of unsupervised clustering techniques using validation metrics: Study on cognitive features from the Canadian Longitudinal Study on Aging (CLSA)
- arxiv url: http://arxiv.org/abs/2504.12270v1
- Date: Mon, 07 Apr 2025 21:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:05:29.906224
- Title: Comparative analysis of unsupervised clustering techniques using validation metrics: Study on cognitive features from the Canadian Longitudinal Study on Aging (CLSA)
- Title(参考訳): 検証指標を用いた教師なしクラスタリング手法の比較分析:カナダ長期老化研究(CLSA)の認知的特徴に関する研究
- Authors: ChenNingZhi Sheng, Rafal Kustra, Davide Chicco,
- Abstract要約: CLSAデータセットには、ベースラインとフォローアップアセスメントの両方で利用可能なデータを持つ18,891人の参加者が含まれている。
この分析で使用されるクラスタリング手法は、K-means(KM)クラスタリング、階層クラスタリング(HC)、およびPAM(Partitioning Around Medoids)である。
K平均とPAM(Partitioning Around Medoids)の3つのクラスタリング手法の結果を比較するために評価指標を使用した結果、同様の結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Purpose: The primary goal of this study is to explore the application of evaluation metrics to different clustering algorithms using the data provided from the Canadian Longitudinal Study (CLSA), focusing on cognitive features. The objective of our work is to discover potential clinically relevant clusters that contribute to the development of dementia over time-based on cognitive changes. Method: The CLSA dataset includes 18,891 participants with data available at both baseline and follow-up assessments, to which clustering algorithms were applied. The clustering methodologies employed in this analysis are K-means (KM) clustering, Hierarchical Clustering (HC) and Partitioning Around Medoids (PAM). We use multiple evaluation metrics to assess our analysis. For internal evaluation metrics, we use: Average silhouette Width, Within and Between the sum of square Ratio (WB.Ratio), Entropy, Calinski-Harabasz Index (CH Index), and Separation Index. For clustering comparison metrics, we used: Homogeneity, Completeness, Adjusted Rand Index (ARI), Rand Index (RI), and Variation Information. Results: Using evaluation metrics to compare the results of the three clustering techniques, K-means and Partitioning Around Medoids (PAM) produced similar results. In contrast, there are significant differences between K-means clustering and Hierarchical Clustering. Our study highlights the importance of the two internal evaluation metrics: entropy and separation index. In between clustering comparison metrics, the Adjusted Rand Index is a key tool. Conclusion: The study results have the potential to contribute to understanding dementia. Researchers can also benefit by applying the suggested evaluation metrics to other areas of healthcare research. Overall, our study improves the understanding of using clustering techniques and evaluation metrics to reveal complex patterns in medical data.
- Abstract(参考訳): 目的:カナダ縦断調査(CLSA)から得られたデータを用いて,異なるクラスタリングアルゴリズムに対する評価指標の適用について検討し,認知的特徴に着目した。
本研究の目的は認知変化に基づく認知症発達に寄与する臨床関連クラスタを発見することである。
メソッド: CLSAデータセットには、ベースラインとフォローアップアセスメントの両方で利用可能なデータを持つ18,891人の参加者が含まれており、クラスタリングアルゴリズムが適用されている。
この分析で使用されるクラスタリング手法は、K-means(KM)クラスタリング、階層クラスタリング(HC)、およびPAM(Partitioning Around Medoids)である。
分析には複数の評価指標を使用します。
内部評価指標としては、平均シルエット幅、正方形比(WB.Ratio)、エントロピー(Entropy)、カリンスキー・ハラバスツ指数(Calinski-Harabasz Index、CH Index)、分離指数(Inside and Between the sum of square Ratio)がある。
クラスタリング比較の指標として、同質性、完全性、調整されたランダムインデックス(ARI)、ランダムインデックス(RI)、変分情報を用いた。
結果: 評価指標を用いて, K-means と Partitioning Around Medoids (PAM) の3つのクラスタリング手法の結果を比較した。
対照的に、K平均クラスタリングと階層クラスタリングには大きな違いがある。
本研究は,エントロピーと分離指数の2つの内部評価指標の重要性を強調した。
クラスタリング比較メトリクス間では、Adjusted Rand Indexが重要なツールです。
結論: 研究結果は認知症の理解に寄与する可能性がある。
研究者は、提案された評価指標を医療研究の他の分野に適用することで、メリットを享受できる。
本研究は, クラスタリング手法と評価指標を用いて, 医療データの複雑なパターンを明らかにすることの理解を改善した。
関連論文リスト
- Estimating the Optimal Number of Clusters in Categorical Data Clustering by Silhouette Coefficient [0.5939858158928473]
本稿では,分類データクラスタリングにおける最適kを推定するアルゴリズムk-SCCを提案する。
k-SCCの性能を比較するために, 合成データセットと実データセットの比較実験を行った。
論文 参考訳(メタデータ) (2025-01-26T14:29:11Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - CLAMS: A Cluster Ambiguity Measure for Estimating Perceptual Variability
in Visual Clustering [23.625877882403227]
本稿では,クラスタアンビグニティ(Cluster Ambiguity)と呼ばれる視覚的クラスタリングを行う際の知覚的変動について検討する。
我々は,モノクローム散乱体におけるクラスタのあいまいさを自動的に予測する,データ駆動型視覚品質尺度であるCLAMSを紹介する。
論文 参考訳(メタデータ) (2023-08-01T04:46:35Z) - A Self-Supervised Learning-based Approach to Clustering Multivariate
Time-Series Data with Missing Values (SLAC-Time): An Application to TBI
Phenotyping [8.487912181381404]
自己教師型学習に基づく多変量時系列データのクラスタリング手法を提案する(SLAC-Time)。
SLAC-TimeはTransformerベースのクラスタリング手法で、ラベルのないデータを活用するためのプロキシタスクとして時系列予測を使用する。
実験により、SLAC-Timeは、シルエット係数、カリンスキー・ハラバスツ指数、ダン指数、デイビース・ボルディン指数の点で、ベースラインのK平均クラスタリングアルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2023-02-27T01:05:17Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Performance evaluation results of evolutionary clustering algorithm star
for clustering heterogeneous datasets [15.154538450706474]
本稿では,進化的クラスタリングアルゴリズムstar(eca*)の性能評価のためのデータを提案する。
従来の5つのクラスタリングアルゴリズムに対するeca*の性能を調べるために、2つの実験手法が用いられた。
論文 参考訳(メタデータ) (2021-04-30T08:17:19Z) - Deep Semi-Supervised Embedded Clustering (DSEC) for Stratification of
Heart Failure Patients [50.48904066814385]
本研究では、深層半教師付き組込みクラスタリングを用いて、心不全のデータ駆動型患者サブグループを決定する。
ヘテロジニアスデータから得られた組込み空間から臨床関連クラスタを見出した。
提案アルゴリズムは、異なる結果を持つ患者の新たな未診断サブグループを見つけることができる。
論文 参考訳(メタデータ) (2020-12-24T12:56:46Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。