論文の概要: Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking
- arxiv url: http://arxiv.org/abs/2406.16148v3
- Date: Thu, 07 Nov 2024 15:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:35.419526
- Title: Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking
- Title(参考訳): オープンな呼吸音響基礎モデルに向けて:事前学習とベンチマーク
- Authors: Yuwei Zhang, Tong Xia, Jing Han, Yu Wu, Georgios Rizos, Yang Liu, Mohammed Mosuily, Jagmohan Chauhan, Cecilia Mascolo,
- Abstract要約: 呼吸器オーディオは幅広い医療応用の予測力を持っているが、現在はまだ探索されていない。
OPERA(OPEn Respiratory Acoustic foundation model Pretraining and benchmarking system)を紹介する。
- 参考スコア(独自算出の注目度): 27.708473070563013
- License:
- Abstract: Respiratory audio, such as coughing and breathing sounds, has predictive power for a wide range of healthcare applications, yet is currently under-explored. The main problem for those applications arises from the difficulty in collecting large labeled task-specific data for model development. Generalizable respiratory acoustic foundation models pretrained with unlabeled data would offer appealing advantages and possibly unlock this impasse. However, given the safety-critical nature of healthcare applications, it is pivotal to also ensure openness and replicability for any proposed foundation model solution. To this end, we introduce OPERA, an OPEn Respiratory Acoustic foundation model pretraining and benchmarking system, as the first approach answering this need. We curate large-scale respiratory audio datasets (~136K samples, over 400 hours), pretrain three pioneering foundation models, and build a benchmark consisting of 19 downstream respiratory health tasks for evaluation. Our pretrained models demonstrate superior performance (against existing acoustic models pretrained with general audio on 16 out of 19 tasks) and generalizability (to unseen datasets and new respiratory audio modalities). This highlights the great promise of respiratory acoustic foundation models and encourages more studies using OPERA as an open resource to accelerate research on respiratory audio for health. The system is accessible from https://github.com/evelyn0414/OPERA.
- Abstract(参考訳): くしゃみや呼吸音などの呼吸性オーディオは、幅広い医療応用の予測力を持っているが、現在はまだ未調査である。
これらのアプリケーションの主な問題は、モデル開発のための大きなラベル付きタスク固有データを集めることの難しさから生じる。
ラベル付けされていないデータで事前訓練された一般的な呼吸音響基礎モデルは、魅力的な利点を提供し、おそらくこの欠点を解き放つだろう。
しかし、医療応用の安全性に欠かせない性質を考えると、提案された基盤モデルソリューションの開放性と複製性を確保することが重要である。
そこで本研究では,OPEn 呼吸音響基礎モデルの事前学習とベンチマークシステムである OPERA について,そのニーズに応える最初のアプローチとして紹介する。
我々は,大規模な呼吸オーディオデータセット(約136Kサンプル,400時間以上)をキュレートし,先駆的な3つの基礎モデルを事前訓練し,評価のための19の下流呼吸健康タスクからなるベンチマークを構築した。
プレトレーニングされたモデルでは,既存の音響モデルに対して,19のタスクのうち16のタスクにおいて,一般的な音響モデルで事前トレーニングされた場合と比較して)優れた性能と汎用性(未知のデータセットと新しい呼吸オーディオモダリティ)を示す。
このことは、呼吸音響基礎モデルの大きな約束を強調し、健康のための呼吸音響の研究を加速するオープンリソースとしてOPERAを使用することを奨励する。
このシステムはhttps://github.com/evelyn0414/OPERAからアクセスできる。
関連論文リスト
- RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction [20.974460332254544]
RespLLMは、呼吸健康予測のためのテキストと音声の表現を統一する新しいフレームワークである。
我々の研究は、異種データの知覚、聴取、理解が可能なマルチモーダルモデルの基礎を築いた。
論文 参考訳(メタデータ) (2024-10-07T17:06:11Z) - Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases [5.810320353233697]
本稿では,呼吸音の認識に適した大規模モデルであるReneを紹介する。
我々の革新的なアプローチは、事前訓練された音声認識モデルを用いて呼吸音を処理している。
我々は,Reneアーキテクチャを用いた実時間呼吸音識別システムを開発した。
論文 参考訳(メタデータ) (2024-05-13T03:00:28Z) - RepAugment: Input-Agnostic Representation-Level Augmentation for Respiratory Sound Classification [2.812716452984433]
本稿では,プレトレーニング音声モデルの呼吸音分類への応用について検討する。
音声と肺の音響サンプルの間には特徴的ギャップがあり,このギャップを埋めるためには,データ拡張が不可欠である。
入力に依存しない表現レベルの拡張手法であるRepAugmentを提案する。
論文 参考訳(メタデータ) (2024-05-05T16:45:46Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Self-Supervised Pretraining Improves Performance and Inference
Efficiency in Multiple Lung Ultrasound Interpretation Tasks [65.23740556896654]
肺超音波検査における複数分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。
3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。
論文 参考訳(メタデータ) (2023-09-05T21:36:42Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural
Networks [68.8204255655161]
私たちは、Convolutional Neural Networksのアンサンブルを適応させて、スピーカーがCOVID-19に感染しているかどうかを分類します。
最終的には、74.9%のUnweighted Average Recall(UAR)、またはニューラルネットワークをアンサンブルすることで、ROC曲線(AUC)の80.7%を達成する。
論文 参考訳(メタデータ) (2020-12-29T01:14:17Z) - Deep Neural Network for Respiratory Sound Classification in Wearable
Devices Enabled by Patient Specific Model Tuning [2.8935588665357077]
メル・スペクトログラムに基づく呼吸音を分類する深層CNN-RNNモデルを提案する。
また、まず呼吸器患者をスクリーニングし、次いで患者固有の分類モデルを構築する患者特化モデルチューニング戦略を実装した。
The proposed hybrid CNN-RNN model achieves 66.31% on four-class classification of breath cycles for ICBHI'17 scientific challenge respiratory sound database。
論文 参考訳(メタデータ) (2020-04-16T15:42:58Z) - CNN-MoE based framework for classification of respiratory anomalies and
lung disease detection [33.45087488971683]
本稿では,聴取分析のための頑健な深層学習フレームワークを提示し,検討する。
呼吸周期の異常を分類し、呼吸音の記録から病気を検出することを目的としている。
論文 参考訳(メタデータ) (2020-04-04T21:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。