論文の概要: Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets
- arxiv url: http://arxiv.org/abs/2409.17685v1
- Date: Thu, 26 Sep 2024 09:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 20:46:02.601997
- Title: Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets
- Title(参考訳): 小規模クラスタ化潜在空間における人工データポイント生成
医療データセット
- Authors: Yasaman Haghbin, Hadi Moradi, Reshad Hosseini
- Abstract要約: 本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
- 参考スコア(独自算出の注目度): 4.542616945567623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the growing trends in machine learning is the use of data generation
techniques, since the performance of machine learning models is dependent on
the quantity of the training dataset. However, in many medical applications,
collecting large datasets is challenging due to resource constraints, which
leads to overfitting and poor generalization. This paper introduces a novel
method, Artificial Data Point Generation in Clustered Latent Space (AGCL),
designed to enhance classification performance on small medical datasets
through synthetic data generation. The AGCL framework involves feature
extraction, K-means clustering, cluster evaluation based on a class separation
metric, and the generation of synthetic data points from clusters with distinct
class representations. This method was applied to Parkinson's disease
screening, utilizing facial expression data, and evaluated across multiple
machine learning classifiers. Experimental results demonstrate that AGCL
significantly improves classification accuracy compared to baseline, GN and
kNNMTD. AGCL achieved the highest overall test accuracy of 83.33% and
cross-validation accuracy of 90.90% in majority voting over different emotions,
confirming its effectiveness in augmenting small datasets.
- Abstract(参考訳): 機械学習のトレンドの1つは、機械学習モデルのパフォーマンスがトレーニングデータセットの量に依存するため、データ生成技術の使用である。
しかし、多くの医学応用において、資源制約のため大規模なデータセットの収集は困難であり、過度に適合し、一般化が不十分になる。
本稿では, クラスタ化潜在空間における人工データポイント生成(AGCL)を提案する。
AGCLフレームワークには、特徴抽出、K平均クラスタリング、クラス分離メトリックに基づくクラスタ評価、異なるクラス表現を持つクラスタからの合成データポイントの生成が含まれる。
この方法はパーキンソン病検診に応用され、表情データを利用して、複数の機械学習分類器で評価された。
実験の結果,AGCLはベースライン,GN,kNNMTDに比べて分類精度が有意に向上した。
AGCLは83.33%の総合的なテスト精度と90.90%のクロスバリデーション精度を達成し、小さなデータセットを増強する効果を確認した。
関連論文リスト
- VICatMix: variational Bayesian clustering and variable selection for discrete biomedical data [0.0]
分類データのクラスタリング用に設計された変分ベイズ有限混合モデルであるVICatMixを提案する。
提案モデルでは, 近似とモデル平均化を用いて, VIにおける局所最適性の低下を緩和し, クラスタ数の真の推定を改良する。
我々は、異なるオミクスデータセットを用いた統合クラスタ分析におけるVICatMixの有用性を実証し、新しいサブタイプの発見を可能にする。
論文 参考訳(メタデータ) (2024-06-23T21:45:04Z) - An Evaluation of Machine Learning Approaches for Early Diagnosis of
Autism Spectrum Disorder [0.0]
自閉症スペクトラム障害(Autistic Spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、反復活動の困難を特徴とする神経疾患である。
本研究は,診断プロセスの強化と自動化を目的として,多様な機械学習手法を用いて重要なASD特性を同定する。
論文 参考訳(メタデータ) (2023-09-20T21:23:37Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Adversarially-regularized mixed effects deep learning (ARMED) models for
improved interpretability, performance, and generalization on clustered data [0.974672460306765]
混合効果モデルは、クラスタ固有のランダム効果からクラスター不変、集団レベルの固定効果を分離する。
本稿では,既存ネットワークへの3つの非侵襲的な付加を通じて,Adversarially-Regularized Mixed Effects Deep Learning (ARMED)モデルを構築するための汎用フレームワークを提案する。
この枠組みを, シミュレーション, 認知症予後診断, 細胞顕微鏡などの4つの応用に適用し, DFNN, 畳み込みニューラルネットワーク, オートエンコーダに適用した。
論文 参考訳(メタデータ) (2022-02-23T20:58:22Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Data augmentation using generative networks to identify dementia [20.137419355252362]
生成モデルはデータ拡張の効果的なアプローチとして利用できることを示す。
本稿では,認知症自動検出システムから抽出した音声と音声の異なる特徴に対する類似したアプローチの適用について検討する。
論文 参考訳(メタデータ) (2020-04-13T15:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。