論文の概要: Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation
- arxiv url: http://arxiv.org/abs/2505.20745v1
- Date: Tue, 27 May 2025 05:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.430559
- Title: Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation
- Title(参考訳): 心電図を用いた心拍数推定のための基礎モデル
- Authors: Jingping Nie, Dung T. Tran, Karan Thakkar, Vasudha Kowtha, John Huang, Carlos Avendano, Erdrin Azemi, Vikramjit Mitra,
- Abstract要約: Auscultation(特に心臓の音)は、重要な重要なサイン情報を提供する非侵襲的なテクニックである。
近年,自己教師型音響表現基盤モデル (FM) が提案され,音響に基づくバイタルサインの洞察が得られた。
- 参考スコア(独自算出の注目度): 3.1379239557375223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auscultation, particularly heart sound, is a non-invasive technique that provides essential vital sign information. Recently, self-supervised acoustic representation foundation models (FMs) have been proposed to offer insights into acoustics-based vital signs. However, there has been little exploration of the extent to which auscultation is encoded in these pre-trained FM representations. In this work, using a publicly available phonocardiogram (PCG) dataset and a heart rate (HR) estimation model, we conduct a layer-wise investigation of six acoustic representation FMs: HuBERT, wav2vec2, wavLM, Whisper, Contrastive Language-Audio Pretraining (CLAP), and an in-house CLAP model. Additionally, we implement the baseline method from Nie et al., 2024 (which relies on acoustic features) and show that overall, representation vectors from pre-trained foundation models (FMs) offer comparable performance to the baseline. Notably, HR estimation using the representations from the audio encoder of the in-house CLAP model outperforms the results obtained from the baseline, achieving a lower mean absolute error (MAE) across various train/validation/test splits despite the domain mismatch.
- Abstract(参考訳): Auscultation(特に心臓の音)は、重要な重要なサイン情報を提供する非侵襲的なテクニックである。
近年,自己教師型音響表現基盤モデル (FM) が提案され,音響に基づくバイタルサインの洞察が得られた。
しかし、これらの事前訓練されたFM表現において、どの程度のオーステレーションが符号化されているかは、ほとんど調査されていない。
本研究では,HuBERT,wav2vec2,wavLM,Whisper,Contrastive Language-Audio Pretraining (CLAP) と社内CLAPモデルの6つの音響表現FMの階層的検討を行う。
さらに,Nie et al ,2024(音響的特徴に依存している)のベースライン法を実装し,事前学習された基礎モデル(FM)の表現ベクトルがベースラインに匹敵する性能を示すことを示す。
特に、社内CLAPモデルのオーディオエンコーダからの表現を用いたHR推定は、ドメインミスマッチにもかかわらず、様々な列車/検証/テストスプリットに対して低い平均絶対誤差(MAE)を達成し、ベースラインから得られた結果より優れる。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis [19.205671029694074]
本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。
その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
論文 参考訳(メタデータ) (2024-07-23T12:00:44Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Pre-trained Model Representations and their Robustness against Noise for
Speech Emotion Analysis [6.382013662443799]
我々は、事前訓練されたモデルからのマルチモーダル融合表現を用いて、最先端の音声感情推定を生成する。
その結果,語彙表現は音響表現に比べて歪みに対して頑健であることが判明した。
論文 参考訳(メタデータ) (2023-03-03T18:22:32Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - A Causal Intervention Scheme for Semantic Segmentation of Quasi-periodic
Cardiovascular Signals [7.182731690965173]
フレームレベルのコントラスト的枠組みの下で,新たなトレーニングパラダイムを形成するために,コントラスト的因果介入(CCI)を提案する。
この介入は、単一の属性によってもたらされる暗黙の統計的バイアスを排除し、より客観的な表現につながる。
論文 参考訳(メタデータ) (2022-09-19T13:54:51Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。