論文の概要: AudioFuse: Unified Spectral-Temporal Learning via a Hybrid ViT-1D CNN Architecture for Robust Phonocardiogram Classification
- arxiv url: http://arxiv.org/abs/2509.23454v1
- Date: Sat, 27 Sep 2025 18:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.235581
- Title: AudioFuse: Unified Spectral-Temporal Learning via a Hybrid ViT-1D CNN Architecture for Robust Phonocardiogram Classification
- Title(参考訳): AudioFuse:ロバスト心電図分類のためのハイブリッドVT-1D CNNアーキテクチャによる一貫したスペクトル時間学習
- Authors: Md. Saiful Bari Siddiqui, Utsab Saha,
- Abstract要約: そこで我々は,PCGを分類するために,相補的表現から学習するアーキテクチャであるAudioFuseを提案する。
PhysioNet 2016データセットでは、AudioFuseがゼロからトレーニングすると、最先端の競争力を持つROC-AUCの0.8608を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biomedical audio signals, such as phonocardiograms (PCG), are inherently rhythmic and contain diagnostic information in both their spectral (tonal) and temporal domains. Standard 2D spectrograms provide rich spectral features but compromise the phase information and temporal precision of the 1D waveform. We propose AudioFuse, an architecture that simultaneously learns from both complementary representations to classify PCGs. To mitigate the overfitting risk common in fusion models, we integrate a custom, wide-and-shallow Vision Transformer (ViT) for spectrograms with a shallow 1D CNN for raw waveforms. On the PhysioNet 2016 dataset, AudioFuse achieves a state-of-the-art competitive ROC-AUC of 0.8608 when trained from scratch, outperforming its spectrogram (0.8066) and waveform (0.8223) baselines. Moreover, it demonstrates superior robustness to domain shift on the challenging PASCAL dataset, maintaining an ROC-AUC of 0.7181 while the spectrogram baseline collapses (0.4873). Fusing complementary representations thus provides a strong inductive bias, enabling the creation of efficient, generalizable classifiers without requiring large-scale pre-training.
- Abstract(参考訳): 心電図(PCG)のような生体医学的オーディオ信号は本質的にリズミカルであり、スペクトル(音節)と時間領域の両方で診断情報を含んでいる。
標準2Dスペクトログラムは、豊富なスペクトル特性を提供するが、1D波形の位相情報と時間精度を損なう。
我々は,PCGを分類するために,両相補表現から同時に学習するアーキテクチャであるAudioFuseを提案する。
核融合モデルに共通する過適合リスクを軽減するため、分光器用のワイド・アンド・シャロー・ビジョン・トランスフォーマー(ViT)と生波形用の浅い1D CNNを統合する。
PhysioNet 2016データセットでは、AudioFuseは、スクラッチからトレーニングされたとき、最先端の競争力を持つOC-AUCの0.8608を達成し、スペクトル(0.8066)と波形(0.8223)ベースラインを上回った。
さらに、PASCALデータセットの挑戦に対するドメインシフトに対して優れた堅牢性を示し、分光基準線が崩壊する(0.4873)間にLOC-AUCの0.7181を維持している。
補表現を融合させることは、強い帰納バイアスを与え、大規模な事前学習を必要とせず、効率的で一般化可能な分類器を作成できる。
関連論文リスト
- Scaling to Multimodal and Multichannel Heart Sound Classification: Fine-Tuning Wav2Vec 2.0 with Synthetic and Augmented Biosignals [3.7590822119382774]
心臓血管疾患(CVD)は、毎年約1790万人が死亡し、世界中で主要な死因となっている。
近年, 心電図(ECG)信号と同期心電図(PCG)信号を用いて, CVDの異常心音の分類に深層学習が応用されている。
この作業は、従来の信号処理と拡散モデルであるWaveGradとDiffWaveを組み合わせて、Wav2Vec 2.0ベースの分類器を微調整する拡張データセットを作成する。
論文 参考訳(メタデータ) (2025-09-15T05:52:41Z) - TF-TransUNet1D: Time-Frequency Guided Transformer U-Net for Robust ECG Denoising in Digital Twin [16.693268731997996]
U-NetベースのエンコーダデコーダアーキテクチャとTransformerエンコーダを統合した,新しい1次元ディープニューラルネットワークTF-TransUNet1Dを提案する。
このモデルは、局所的な形態的特徴と長距離時間的依存関係を同時に捉えるように設計されている。
高精度デノゲーションを提供することで、この作業は心臓のデジタル双生児のための前処理パイプラインにおいて重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-08-28T03:51:19Z) - Physics-Based Explainable AI for ECG Segmentation: A Lightweight Model [1.4018975578160688]
本研究は、スペクトル解析と確率論的予測を組み合わせ、ECG信号セグメンテーションのための合理化アーキテクチャを提案する。
複雑な層を単純な層に置き換えることで、P波、QRS波、T波の時間的特徴とスペクトル特性の両方を効果的に捉えることができる。
論文 参考訳(メタデータ) (2025-08-21T08:45:13Z) - SinBasis Networks: Matrix-Equivalent Feature Extraction for Wave-Like Optical Spectrograms [8.37266944852829]
フラットな入力上での線形変換として、畳み込みと注意を再解釈する統一的行列等価フレームワークを提案する。
これらの変換をCNN、ViT、Capsuleアーキテクチャに埋め込むことで、Sin-Basis Networksは周期的なモチーフに対する感度を高めることができる。
論文 参考訳(メタデータ) (2025-05-06T16:16:42Z) - SpectrumFM: A Foundation Model for Intelligent Spectrum Management [99.08036558911242]
既存のインテリジェントスペクトル管理手法は、通常は小規模モデルに基づいており、認識精度、収束速度、一般化の顕著な制限に悩まされている。
本稿では、スペクトルFMと呼ばれる新しいスペクトル基盤モデルを提案し、スペクトル管理のための新しいパラダイムを確立する。
実験により、SpectrumFMは精度、堅牢性、適応性、少数ショット学習効率、収束速度の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-02T04:06:39Z) - FCDM: A Physics-Guided Bidirectional Frequency Aware Convolution and Diffusion-Based Model for Sinogram Inpainting [14.043383277622874]
フルビューのシノグラムは高い放射線線量と長いスキャン時間を必要とする。
スパースビューCTは、この負担を軽減するが、構造的な信号損失を伴う不完全なシノグラムを生じる。
本研究では,Ninogram に適した拡散型フレームワークであるmodelnameを提案する。
論文 参考訳(メタデータ) (2024-08-26T12:31:38Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。