論文の概要: Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals
- arxiv url: http://arxiv.org/abs/2512.00563v1
- Date: Sat, 29 Nov 2025 17:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.298375
- Title: Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases from Respiratory Audio Signals
- Title(参考訳): 呼吸性オーディオ信号から肺疾患を自動的に検出する多モード深層学習
- Authors: S M Asiful Islam Saky, Md Rashidul Islam, Md Saiful Arefin, Shahaba Alam,
- Abstract要約: 本研究では,呼吸音信号を用いた自動肺不全検出のためのマルチモーダル深層学習フレームワークを提案する。
このフレームワークにはGrad-CAM、Integrated Gradients、SHAPが含まれており、解釈可能なスペクトル、時間、特徴レベルの説明を生成する。
この結果は、遠隔医療、ポイント・オブ・ケアの診断、および実際の呼吸スクリーニングに対するフレームワークの可能性を示している。
- 参考スコア(独自算出の注目度): 0.49581497240446293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Respiratory diseases remain major global health challenges, and traditional auscultation is often limited by subjectivity, environmental noise, and inter-clinician variability. This study presents an explainable multimodal deep learning framework for automatic lung-disease detection using respiratory audio signals. The proposed system integrates two complementary representations: a spectral-temporal encoder based on a CNN-BiLSTM Attention architecture, and a handcrafted acoustic-feature encoder capturing physiologically meaningful descriptors such as MFCCs, spectral centroid, spectral bandwidth, and zero-crossing rate. These branches are combined through late-stage fusion to leverage both data-driven learning and domain-informed acoustic cues. The model is trained and evaluated on the Asthma Detection Dataset Version 2 using rigorous preprocessing, including resampling, normalization, noise filtering, data augmentation, and patient-level stratified partitioning. The study achieved strong generalization with 91.21% accuracy, 0.899 macro F1-score, and 0.9866 macro ROC-AUC, outperforming all ablated variants. An ablation study confirms the importance of temporal modeling, attention mechanisms, and multimodal fusion. The framework incorporates Grad-CAM, Integrated Gradients, and SHAP, generating interpretable spectral, temporal, and feature-level explanations aligned with known acoustic biomarkers to build clinical transparency. The findings demonstrate the framework's potential for telemedicine, point-of-care diagnostics, and real-world respiratory screening.
- Abstract(参考訳): 呼吸器疾患は依然として主要な世界的な健康上の課題であり、伝統的な鎮静は主観性、環境騒音、およびクリニック間の変動によって制限されることが多い。
本研究では,呼吸音信号を用いた自動肺不全検出のためのマルチモーダル深層学習フレームワークを提案する。
提案システムは,CNN-BiLSTMアテンションアーキテクチャに基づくスペクトル時間エンコーダと,MFCC,スペクトルセントロイド,スペクトル帯域,ゼロクロスレートなどの生理学的に意味のある記述子をキャプチャする手作り音響特徴エンコーダの2つの相補的表現を統合した。
これらの分岐は、データ駆動学習とドメインインフォームド音響キューの両方を活用するために、後期融合を通じて結合される。
このモデルは、再サンプリング、正規化、ノイズフィルタリング、データ拡張、患者レベルの階層化パーティショニングなど、厳密な事前処理を使用して、Asthma Detection Dataset Version 2でトレーニングされ、評価される。
この研究は91.21%の精度、0.899のマクロF1スコア、0.9866のマクロROC-AUCで強力な一般化を達成し、全ての改良版を上回りました。
Ablation study is confirmed the importance of temporal modeling, attention mechanism, and multimodal fusion。
このフレームワークにはGrad-CAM、Integrated Gradients、SHAPが含まれており、解釈可能なスペクトル、時間的、特徴レベルの説明を既知の音響バイオマーカーと一致させて臨床透明性を構築する。
この結果は、遠隔医療、ポイント・オブ・ケアの診断、および実際の呼吸スクリーニングに対するフレームワークの可能性を示している。
関連論文リスト
- A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Structure-Accurate Medical Image Translation via Dynamic Frequency Balance and Knowledge Guidance [60.33892654669606]
拡散モデルは,必要な医用画像を合成するための強力な戦略である。
既存のアプローチはまだ、高周波情報の過度な適合による解剖学的構造歪みの問題に悩まされている。
本稿では,動的周波数バランスと知識指導に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-13T05:48:13Z) - Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN [7.136933021609078]
本研究は, 心臓疾患の自動診断のための, 迅速かつ正確かつ費用対効果の高い手法を提供する新しいディープラーニングアーキテクチャを開発し, 評価する。
まず,多様な畳み込みフィルタサイズを利用して人間の聴覚処理をエミュレートするマルチブランチディープ畳み込みニューラルネットワーク(MBDCN)と,特徴抽出のためのパワースペクトル入力の2つの革新的な手法を提案する。
第二に、LSTMブロックをMBDCNに統合し、時間領域の特徴抽出を改善するLong Short-Term Memory-Convolutional Neural (LSCN)モデルである。
論文 参考訳(メタデータ) (2024-07-15T13:02:54Z) - Respiratory Disease Classification and Biometric Analysis Using Biosignals from Digital Stethoscopes [3.2458203725405976]
本研究は, 自動呼吸器疾患分類とバイオメトリックス解析にデジタル聴診器技術を活用した新しいアプローチを提案する。
各種呼吸状態の分類に機械学習モデルを訓練する。
本研究は,2値分類の精度(健康と疾患のバランス精度89%)と多値分類の精度(72%)を実現している。
論文 参考訳(メタデータ) (2023-09-12T23:54:00Z) - Brain Imaging-to-Graph Generation using Adversarial Hierarchical Diffusion Models for MCI Causality Analysis [44.45598796591008]
機能的磁気共鳴画像(fMRI)を軽度認知障害解析のための効果的な接続性にマッピングするために,脳画像から画像へのBIGG(Brain Imaging-to-graph generation)フレームワークを提案する。
発電機の階層変換器は、複数のスケールでノイズを推定するように設計されている。
ADNIデータセットの評価は,提案モデルの有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T06:54:56Z) - Fuzzy Attention Neural Network to Tackle Discontinuity in Airway
Segmentation [67.19443246236048]
気道セグメンテーションは肺疾患の検査、診断、予後に重要である。
いくつかの小型の気道支線(気管支や終端など)は自動セグメンテーションの難しさを著しく増す。
本稿では,新しいファジィアテンションニューラルネットワークと包括的損失関数を備える,気道セグメンテーションの効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-09-05T16:38:13Z) - Factored Attention and Embedding for Unstructured-view Topic-related
Ultrasound Report Generation [70.7778938191405]
本研究では,非構造的トピック関連超音波レポート生成のための新しい因子的注意・埋め込みモデル(FAE-Gen)を提案する。
提案したFAE-Genは主に2つのモジュール、すなわちビュー誘導因子の注意とトピック指向因子の埋め込みから構成されており、異なるビューで均質および不均一な形態的特徴を捉えている。
論文 参考訳(メタデータ) (2022-03-12T15:24:03Z) - CNN-MoE based framework for classification of respiratory anomalies and
lung disease detection [33.45087488971683]
本稿では,聴取分析のための頑健な深層学習フレームワークを提示し,検討する。
呼吸周期の異常を分類し、呼吸音の記録から病気を検出することを目的としている。
論文 参考訳(メタデータ) (2020-04-04T21:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。