論文の概要: MVP: Multi-source Voice Pathology detection
- arxiv url: http://arxiv.org/abs/2505.20050v1
- Date: Mon, 26 May 2025 14:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.517229
- Title: MVP: Multi-source Voice Pathology detection
- Title(参考訳): MVP:マルチソース音声診断
- Authors: Alkis Koudounas, Moreno La Quatra, Gabriele Ciravegna, Marco Fantini, Erika Crosetti, Giovanni Succo, Tania Cerquitelli, Sabato Marco Siniscalchi, Elena Baralis,
- Abstract要約: MVP(Multi-source Voice Pathology Detection)は、生音声信号を直接操作するトランスフォーマーを活用する新しいアプローチである。
提案手法は単一ソース法よりも最大で +13% AUC の改善を実現している。
- 参考スコア(独自算出の注目度): 18.49926939309
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Voice disorders significantly impact patient quality of life, yet non-invasive automated diagnosis remains under-explored due to both the scarcity of pathological voice data, and the variability in recording sources. This work introduces MVP (Multi-source Voice Pathology detection), a novel approach that leverages transformers operating directly on raw voice signals. We explore three fusion strategies to combine sentence reading and sustained vowel recordings: waveform concatenation, intermediate feature fusion, and decision-level combination. Empirical validation across the German, Portuguese, and Italian languages shows that intermediate feature fusion using transformers best captures the complementary characteristics of both recording types. Our approach achieves up to +13% AUC improvement over single-source methods.
- Abstract(参考訳): 音声障害は患者の生活の質に大きな影響を及ぼすが、病的音声データの不足と音源の変動により、非侵襲的自動診断は未発見のままである。
MVP(Multi-source Voice Pathology Detection)は、生音声信号を直接操作するトランスフォーマーを活用する新しいアプローチである。
文読解と持続母音録音を組み合わせた3つの融合戦略について検討する。
ドイツ語、ポルトガル語、イタリア語における実証的な検証は、トランスフォーマーを用いた中間的特徴融合が、両方の記録タイプの相補的な特徴を最もよく捉えていることを示している。
提案手法は単一ソース法よりも最大で +13% AUC の改善を実現している。
関連論文リスト
- RobSurv: Vector Quantization-Based Multi-Modal Learning for Robust Cancer Survival Prediction [9.451558150076789]
多モード医用画像を用いた癌生存予測は腫瘍学において重要な課題である。
最近のアプローチでは、異種CTおよびPET画像から一貫した特徴を抽出し、臨床応用性を制限している。
レジリエントなマルチモーダル機能学習にベクトル量子化を活用する,堅牢なディープラーニングフレームワークであるRobSurvを紹介する。
論文 参考訳(メタデータ) (2025-05-05T10:10:03Z) - Voice Disorder Analysis: a Transformer-based Approach [10.003909936239742]
本稿では,生音声信号を直接処理するトランスフォーマーを用いた新しいソリューションを提案する。
文読解や持続母音の発声など,多くの記録タイプを同時に検討する。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示した。
論文 参考訳(メタデータ) (2024-06-20T19:29:04Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Context-aware attention layers coupled with optimal transport domain
adaptation and multimodal fusion methods for recognizing dementia from
spontaneous speech [0.0]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の主要な原因である複雑な神経認知疾患である。
そこで本研究では,AD患者検出のための新しい手法を提案する。
ADReSSとADReSSo Challengeで実施した実験は、既存の研究イニシアチブに対して導入したアプローチの有効性を示している。
論文 参考訳(メタデータ) (2023-05-25T18:18:09Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。