論文の概要: Scaling to Multimodal and Multichannel Heart Sound Classification: Fine-Tuning Wav2Vec 2.0 with Synthetic and Augmented Biosignals
- arxiv url: http://arxiv.org/abs/2509.11606v1
- Date: Mon, 15 Sep 2025 05:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.165869
- Title: Scaling to Multimodal and Multichannel Heart Sound Classification: Fine-Tuning Wav2Vec 2.0 with Synthetic and Augmented Biosignals
- Title(参考訳): マルチモーダル・マルチチャンネル心臓音分類へのスケーリング:合成・拡張バイオシグナーを用いた微調整Wav2Vec 2.0
- Authors: Milan Marocchi, Matthew Fynn, Kayapanda Mandana, Yue Rong,
- Abstract要約: 心臓血管疾患(CVD)は、毎年約1790万人が死亡し、世界中で主要な死因となっている。
深層学習は、同期心電図(PCG)と心電図(ECG)信号を用いて、CVDの異常心音の分類に応用されている。
この作業は、従来の信号処理と拡散モデルであるWaveGradとDiffWaveを組み合わせて、Wav2Vec 2.0ベースの分類器を微調整する拡張データセットを作成する。
- 参考スコア(独自算出の注目度): 3.7590822119382774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cardiovascular diseases (CVDs) are the leading cause of death worldwide, accounting for approximately 17.9 million deaths each year. Early detection is critical, creating a demand for accurate and inexpensive pre-screening methods. Deep learning has recently been applied to classify abnormal heart sounds indicative of CVDs using synchronised phonocardiogram (PCG) and electrocardiogram (ECG) signals, as well as multichannel PCG (mPCG). However, state-of-the-art architectures remain underutilised due to the limited availability of synchronised and multichannel datasets. Augmented datasets and pre-trained models provide a pathway to overcome these limitations, enabling transformer-based architectures to be trained effectively. This work combines traditional signal processing with denoising diffusion models, WaveGrad and DiffWave, to create an augmented dataset to fine-tune a Wav2Vec 2.0-based classifier on multimodal and multichannel heart sound datasets. The approach achieves state-of-the-art performance. On the Computing in Cardiology (CinC) 2016 dataset of single channel PCG, accuracy, unweighted average recall (UAR), sensitivity, specificity and Matthew's correlation coefficient (MCC) reach 92.48\%, 93.05\%, 93.63\%, 92.48\%, 94.93\% and 0.8283, respectively. Using the synchronised PCG and ECG signals of the training-a dataset from CinC, 93.14\%, 92.21\%, 94.35\%, 90.10\%, 95.12\% and 0.8380 are achieved for accuracy, UAR, sensitivity, specificity and MCC, respectively. Using a wearable vest dataset consisting of mPCG data, the model achieves 77.13\% accuracy, 74.25\% UAR, 86.47\% sensitivity, 62.04\% specificity, and 0.5082 MCC. These results demonstrate the effectiveness of transformer-based models for CVD detection when supported by augmented datasets, highlighting their potential to advance multimodal and multichannel heart sound classification.
- Abstract(参考訳): 心臓血管疾患(CVD)は、毎年約1790万人が死亡し、世界中で主要な死因となっている。
早期検出は重要であり、正確で安価な事前スクリーニング方法の需要を生み出す。
近年, 心電図(ECG)信号とマルチチャネルPCG(mPCG)信号を用いて, CVDの異常な心臓音の分類に深層学習が応用されている。
しかし、同期およびマルチチャネルデータセットの可用性が制限されているため、最先端のアーキテクチャは未利用のままである。
拡張データセットと事前トレーニングされたモデルは、これらの制限を克服するための経路を提供し、トランスフォーマーベースのアーキテクチャを効果的にトレーニングすることを可能にする。
この作業は、従来の信号処理と拡散モデルであるWaveGradとDiffWaveを組み合わせることで、マルチモーダルおよびマルチチャネル心臓音響データセット上でWav2Vec 2.0ベースの分類器を微調整する拡張データセットを作成する。
このアプローチは最先端のパフォーマンスを実現する。
The Computing in Cardiology (CinC) 2016 data of single channel PCG, accuracy, unweighted average recall (UAR), sensitivity, specificity and Matthew's correlation coefficient (MCC) reach 92.48\%, 93.05\%, 93.63\%, 92.48\%, 94.93\%, 0.8383。
CinC,93.14\%,92.21\%,94.35\%,90.10\%,95.12\%,0.8380のトレーニングaデータセットの同期PCGとECG信号を用いて、それぞれ精度、UAR、感度、特異性、MCCを実現する。
mPCGデータからなるウェアラブルベストデータセットを使用して、77.13\%の精度、74.25\%のUAR、86.47\%の感度、62.04\%の特異性、0.5082のMCCを達成している。
これらの結果から, 拡張データセットによるCVD検出におけるトランスフォーマーモデルの有効性が示され, マルチモーダル・マルチチャネル心音分類の進歩の可能性が浮き彫りとなった。
関連論文リスト
- LGE-Guided Cross-Modality Contrastive Learning for Gadolinium-Free Cardiomyopathy Screening in Cine CMR [51.11296719862485]
CMRを用いたガドリニウムフリー心筋症スクリーニングのためのコントラシブラーニングおよびクロスモーダルアライメントフレームワークを提案する。
CMRとLate Gadolinium Enhancement (LGE) 配列の潜伏空間を整列させることにより, 本モデルでは線維症特異的な病理組織をCMR埋め込みにエンコードする。
論文 参考訳(メタデータ) (2025-08-23T07:21:23Z) - NMCSE: Noise-Robust Multi-Modal Coupling Signal Estimation Method via Optimal Transport for Cardiovascular Disease Detection [7.255170888607717]
最適輸送理論により分布整合性の問題を再検討するノイズ・ロバスト多モード結合信号推定法(NMCSE)を提案する。
CVD検出では,97.38%の精度と0.98のAUCを達成し,最先端の手法より優れ,実世界の臨床応用において堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-14T18:25:43Z) - Synthetic Time Series Data Generation for Healthcare Applications: A PCG Case Study [43.28613210217385]
我々は、PCGデータを生成するために、最先端の3つの生成モデルを採用し、比較する。
その結果,生成したPCGデータは元のデータセットによく似ていることがわかった。
今後の研究では、この手法をデータ拡張パイプラインに組み込んで、異常なPCG信号を心臓の大腿骨で合成する予定である。
論文 参考訳(メタデータ) (2024-12-17T18:07:40Z) - A Compact LSTM-SVM Fusion Model for Long-Duration Cardiovascular
Diseases Detection [0.0]
世界的には、心臓血管疾患(CVD)が主な死因であり、毎年1790万人が死亡している。
重要な臨床目的の1つは、心電図(ECG)データによるCVDの早期検出である。
機械学習とディープラーニングに基づく最近の進歩は、この分野において大きな進歩を遂げている。
論文 参考訳(メタデータ) (2023-11-20T10:57:11Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z) - Deep Learning Based Classification of Unsegmented Phonocardiogram
Spectrograms Leveraging Transfer Learning [0.0]
心臓腫瘍は、聴診プロセス中に検出される最も一般的な異常です。
PCGデータセットは、PhystoNet/CinCとPASCAL(2011)の2種類があります。
本研究では,PhystoNetとPASCALデータセットの分類のための,新規で,より複雑で,比較的軽量なカスタムCNNモデルを提案する。
論文 参考訳(メタデータ) (2020-12-15T16:32:29Z) - ECG-DelNet: Delineation of Ambulatory Electrocardiograms with Mixed
Quality Labeling Using Neural Networks [69.25956542388653]
ディープラーニング(DL)アルゴリズムは、学術的、産業的にも重くなっている。
セグメンテーションフレームワークにECGの検出とデライン化を組み込むことにより、低解釈タスクにDLをうまく適用できることを実証する。
このモデルは、PhyloNetのQTデータベースを使用して、105個の増幅ECG記録から訓練された。
論文 参考訳(メタデータ) (2020-05-11T16:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。