論文の概要: Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions
- arxiv url: http://arxiv.org/abs/2508.20717v1
- Date: Thu, 28 Aug 2025 12:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.385629
- Title: Unified Multi-task Learning for Voice-Based Detection of Diverse Clinical Conditions
- Title(参考訳): 多様な臨床症状の音声による検出のための統一マルチタスク学習
- Authors: Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed,
- Abstract要約: プライバシを意識したマルチタスク学習フレームワークであるMARVELを,9つの異なる神経・呼吸・音声障害を同時に検出する。
当社のフレームワークは, シングルモーダルベースラインを5~19%上回り, 9タスクのうち7タスクにおいて最先端の自己監督モデルを上回っている。
- 参考スコア(独自算出の注目度): 14.745982411183766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice-based health assessment offers unprecedented opportunities for scalable, non-invasive disease screening, yet existing approaches typically focus on single conditions and fail to leverage the rich, multi-faceted information embedded in speech. We present MARVEL (Multi-task Acoustic Representations for Voice-based Health Analysis), a privacy-conscious multitask learning framework that simultaneously detects nine distinct neurological, respiratory, and voice disorders using only derived acoustic features, eliminating the need for raw audio transmission. Our dual-branch architecture employs specialized encoders with task-specific heads sharing a common acoustic backbone, enabling effective cross-condition knowledge transfer. Evaluated on the large-scale Bridge2AI-Voice v2.0 dataset, MARVEL achieves an overall AUROC of 0.78, with exceptional performance on neurological disorders (AUROC = 0.89), particularly for Alzheimer's disease/mild cognitive impairment (AUROC = 0.97). Our framework consistently outperforms single-modal baselines by 5-19% and surpasses state-of-the-art self-supervised models on 7 of 9 tasks, while correlation analysis reveals that the learned representations exhibit meaningful similarities with established acoustic features, indicating that the model's internal representations are consistent with clinically recognized acoustic patterns. By demonstrating that a single unified model can effectively screen for diverse conditions, this work establishes a foundation for deployable voice-based diagnostics in resource-constrained and remote healthcare settings.
- Abstract(参考訳): 音声ベースの健康評価は、スケーラブルで非侵襲的な疾患スクリーニングのための前例のない機会を提供するが、既存のアプローチは通常、単一の条件に焦点を当て、音声に埋め込まれたリッチで多面的な情報を活用できない。
そこで我々は,9つの異なる神経症状,呼吸障害,発声障害を同時に検出し,生音声伝送の必要性を解消するプライバシー意識型マルチタスク学習フレームワークであるMARVEL(Multi-task Acoustic Representations for Voice-based Health Analysis)を提案する。
我々のデュアルブランチアーキテクチャは、タスク固有のヘッドを持つ特殊なエンコーダを用いて、共通の音響バックボーンを共有し、効果的なクロスコンディション知識の伝達を可能にする。
大規模なBridge2AI-Voice v2.0データセットに基づいて評価され、MARVELは、神経疾患(AUROC = 0.89)、特にアルツハイマー病/ミルド認知障害(AUROC = 0.97)に対する例外的なパフォーマンスで、AUROC全体の0.78に達する。
本研究の枠組みは,9つの課題のうち7つの課題において,1つのモダルベースラインを5~19%上回り,最先端の自己教師型モデルを上回っている一方,相関解析により,学習された表現が既存の音響特性と有意な類似性を示すことが明らかとなり,モデルの内部表現が臨床的に認識された音響パターンと整合していることが示唆された。
この研究は、単一の統一モデルが多様な条件を効果的にスクリーニングできることを実証することによって、リソース制約された遠隔医療環境において、音声ベースの診断をデプロイするための基盤を確立する。
関連論文リスト
- Audio-Vision Contrastive Learning for Phonological Class Recognition [6.476789653980653]
実時間磁気共鳴画像(rtMRI)と音声信号を組み合わせて3つの重要な調音次元を分類する多モードディープラーニングフレームワークを提案する。
USC-TIMITデータセットによる実験結果から,我々のコントラスト学習に基づくアプローチが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-07-23T16:44:22Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and
Speech Pause Features Robust to Noisy Inputs [11.34426502082293]
本稿では, 話者がアルツハイマー病を患っているか否かを分類するために, ASR で書き起こされた音声と音響データを同時に消費する2つの多モード融合型深層学習モデルを提案する。
我々の最良モデルである、単語、単語確率、拡散特性、ポーズ情報、および様々な音響特徴を用いたハイウェイ層付きBiLSTMは、MMSE認知スコアに対して84%の精度とRSME誤差予測を4.26の精度で達成する。
論文 参考訳(メタデータ) (2021-06-29T19:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。