論文の概要: Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report
- arxiv url: http://arxiv.org/abs/2511.14939v1
- Date: Tue, 18 Nov 2025 21:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.545248
- Title: Fine-tuning Pre-trained Audio Models for COVID-19 Detection: A Technical Report
- Title(参考訳): 新型コロナウイルス検出のための微調整済みオーディオモデル:技術報告
- Authors: Daniel Oliveira de Brito, Letícia Gabriella de Souza, Marcelo Matheus Gauy, Marcelo Finger, Arnaldo Candido Junior,
- Abstract要約: 本報告では、確立したベンチマークデータセットを用いて、新型コロナウイルス検出タスクにおける事前学習音声モデルの性能について検討する。
年齢と性別による厳密な人口階層化を実施し、人口特性と新型コロナウイルスの状況の急激な相関をモデルが悪用するのを防ぐ。
- 参考スコア(独自算出の注目度): 0.9431368999053936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report investigates the performance of pre-trained audio models on COVID-19 detection tasks using established benchmark datasets. We fine-tuned Audio-MAE and three PANN architectures (CNN6, CNN10, CNN14) on the Coswara and COUGHVID datasets, evaluating both intra-dataset and cross-dataset generalization. We implemented a strict demographic stratification by age and gender to prevent models from exploiting spurious correlations between demographic characteristics and COVID-19 status. Intra-dataset results showed moderate performance, with Audio-MAE achieving the strongest result on Coswara (0.82 AUC, 0.76 F1-score), while all models demonstrated limited performance on Coughvid (AUC 0.58-0.63). Cross-dataset evaluation revealed severe generalization failure across all models (AUC 0.43-0.68), with Audio-MAE showing strong performance degradation (F1-score 0.00-0.08). Our experiments demonstrate that demographic balancing, while reducing apparent model performance, provides more realistic assessment of COVID-19 detection capabilities by eliminating demographic leakage - a confounding factor that inflate performance metrics. Additionally, the limited dataset sizes after balancing (1,219-2,160 samples) proved insufficient for deep learning models that typically require substantially larger training sets. These findings highlight fundamental challenges in developing generalizable audio-based COVID-19 detection systems and underscore the importance of rigorous demographic controls for clinically robust model evaluation.
- Abstract(参考訳): 本技術報告は、確立されたベンチマークデータセットを用いて、新型コロナウイルス検出タスクにおける事前訓練されたオーディオモデルの性能を調査する。
我々は,Coshara と COUGHVID データセット上で Audio-MAE と 3つの PANN アーキテクチャ (CNN6, CNN10, CNN14) を微調整し,データセット内およびクロスデータセットの一般化を評価した。
年齢と性別による厳密な人口階層化を実施し,人口特性とCOVID-19状態の急激な相関をモデルが悪用しないようにした。
データベース内の結果は中程度の性能を示し、Audio-MAEはCoshara (0.82 AUC, 0.76 F1-score) で最強の成績を収め、全てのモデルはCoughvid (AUC 0.58-0.63) で限られた性能を示した。
クロスデータセット評価では全モデル(AUC 0.43-0.68)で重大な一般化失敗を示し、Audio-MAEは高い性能低下を示した(F1-score 0.00-0.08)。
我々の実験は、人口動態のバランスが明らかなモデル性能を低下させる一方で、人口動態の漏洩を排除し、より現実的な新型コロナウイルス検出能力の評価を提供することを示した。
さらに、バランスをとる後の限られたデータセットサイズ(1,219-2,160サンプル)は、通常より大規模なトレーニングセットを必要とするディープラーニングモデルには不十分であることが判明した。
これらの知見は、一般化可能な音声ベースの新型コロナウイルス検出システムの開発における根本的な課題を浮き彫りにし、臨床的に堅牢なモデル評価のための厳密な人口動態制御の重要性を浮き彫りにしている。
関連論文リスト
- Sustaining model performance for covid-19 detection from dynamic audio data: Development and evaluation of a comprehensive drift-adaptive framework [0.5679775668038152]
新型コロナウイルスのパンデミックは、多様なデータソースから病気を検出できる堅牢な診断ツールの必要性を強調している。
実世界のデータのダイナミックな性質は、基礎となるデータ分散が変化するにつれて、パフォーマンスが時間の経過とともに低下するモデルドリフトにつながる可能性がある。
本研究の目的は,モデルドリフトをモニタし,適応機構を用いて性能変動を緩和するフレームワークを開発することである。
論文 参考訳(メタデータ) (2024-09-28T10:06:30Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Symptom-based Machine Learning Models for the Early Detection of
COVID-19: A Narrative Review [0.0]
機械学習モデルは、患者の報告した症状、臨床データ、医療画像などを取り入れて、大規模なデータセットを分析することができる。
本稿では、その性能と限界を含む、COVID-19を予測するための症状のみの機械学習モデルの概要について概説する。
また、画像ベースモデルと比較して、症状ベースのモデルの性能についても検討する。
論文 参考訳(メタデータ) (2023-12-08T01:41:42Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Developing a multi-variate prediction model for the detection of
COVID-19 from Crowd-sourced Respiratory Voice Data [0.0]
この研究の新規性は、音声記録から新型コロナウイルス患者を識別するためのディープラーニングモデルの開発である。
私たちは、新型コロナウイルスのサウンドアプリを使った4352人の参加者からクラウドソースされた、853のオーディオサンプルからなるケンブリッジ大学のデータセットを使用しました。
音声データに基づいて,陽性症例を検出する深層学習分類モデルを開発した。
論文 参考訳(メタデータ) (2022-09-08T11:46:37Z) - Sounds of COVID-19: exploring realistic performance of audio-based
digital testing [17.59710651224251]
本稿では、COVID-19の音声によるデジタル検査の現実的な性能について検討する。
われわれは、大規模なクラウドソースによる呼吸器オーディオデータセットをモバイルアプリを通じて収集した。
非バイアスモデルでは、呼吸、うずみ、音声信号から抽出した特徴を予測器として取り出し、AUC-ROCは0.71(95% CI: 0.65$-$0.77)となる。
論文 参考訳(メタデータ) (2021-06-29T15:50:36Z) - Systematic investigation into generalization of COVID-19 CT deep
learning models with Gabor ensemble for lung involvement scoring [9.94980188821453]
本研究は,COVID-19 CTデータを用いたキーパブリッシュモデルの一般化可能性について検討する。
次に、独立した新しいデータセットを使用して、新型コロナウイルスの重症度に関するこれらのモデルの予測能力を評価する。
論文 参考訳(メタデータ) (2021-04-20T03:49:48Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - End-2-End COVID-19 Detection from Breath & Cough Audio [68.41471917650571]
クラウドソースのオーディオサンプルからエンドツーエンドのディープラーニングを使用してCOVID-19を診断する最初の試みを実証します。
本研究では, 人工深層ニューラルネットワークを用いて, 人工呼吸器から新型コロナを診断する新しいモデル戦略を提案する。
論文 参考訳(メタデータ) (2021-01-07T01:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。