論文の概要: Training-Free Cross-Lingual Dysarthria Severity Assessment via Phonological Subspace Analysis in Self-Supervised Speech Representations
- arxiv url: http://arxiv.org/abs/2604.10123v1
- Date: Sat, 11 Apr 2026 09:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.855458
- Title: Training-Free Cross-Lingual Dysarthria Severity Assessment via Phonological Subspace Analysis in Self-Supervised Speech Representations
- Title(参考訳): 自己教師付き音声表現における音韻部分空間解析による言語横断性難聴度評価
- Authors: Bernard Muller, Antonio Armando Ortiz Barrañón, LaVonne Roberts,
- Abstract要約: 変形性言語重度評価は通常、ラベル付き病的音声から構築された教師付きモデルを必要とする。
音韻的特徴部分空間の劣化を測定することにより, 難聴度を定量化する訓練自由手法を提案する。
教師付き重度モデルは訓練されず、健常な制御音声から特徴方向を推定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dysarthric speech severity assessment typically requires trained clinicians or supervised models built from labelled pathological speech, limiting scalability across languages and clinical settings. We present a training-free method that quantifies dysarthria severity by measuring degradation in phonological feature subspaces within frozen HuBERT representations. No supervised severity model is trained; feature directions are estimated from healthy control speech using a pretrained forced aligner. For each speaker, we extract phone-level embeddings via Montreal Forced Aligner, compute d-prime scores along phonological contrast directions (nasality, voicing, stridency, sonorance, manner, and four vowel features) derived exclusively from healthy controls, and construct a 12-dimensional phonological profile.Evaluating 890 speakers across 10 corpora, 5 languages (English, Spanish, Dutch, Mandarin, French), and 3 primary aetiologies (Parkinson's disease, cerebral palsy, ALS), we find that all five consonant d-prime features correlate significantly with clinical severity (random-effects meta-analysis rho = -0.50 to -0.56, p < 2e-4; pooled Spearman rho = -0.47 to -0.55 with bootstrap 95% CIs not crossing zero). The effect replicates within individual corpora, survives FDR correction, and remains robust to leave-one-corpus-out removal and alignment quality controls. Nasality d-prime decreases monotonically from control to severe in 6 of 7 severity-graded corpora. Mann-Whitney U tests confirm that all 12 features distinguish controls from severely dysarthric speakers (p < 0.001).The method requires no dysarthric training data and applies to any language with an existing MFA acoustic model (currently 29 languages). We release the full pipeline and phone feature configurations for six languages.
- Abstract(参考訳): 外科的言語重症度評価は通常、ラベル付き病理言語から構築された訓練された臨床医または監督されたモデルを必要とし、言語と臨床設定のスケーラビリティを制限する。
凍結したHuBERT表現内の音韻特徴部分空間の劣化を測定することにより、難聴度を定量化する訓練自由手法を提案する。
教師付き重度モデルは訓練されず、事前訓練された強制整合器を用いて、健全な制御音声から特徴方向を推定する。
各話者に対して、モントリオール強制アリグナーを介して、音声学的コントラスト方向(鼻音、発声、強勢、ソノランス、方法、母音の4つの特徴)に沿って、d-primeスコアを計算し、健全な制御から派生した12次元の音韻プロファイルを構築します。
この効果は、個々のコーパス内で複製し、FDR補正を継続し、コーパスアウト除去とアライメント品質制御を継続する。
ナサリティd-プリムは、重度グレードの7つのコーパスのうち6つにおいて、単調に制御から重度へと減少する。
マン=ホイットニーUの試験では、12の全ての特徴が重度変形性スピーカー(p < 0.001)とコントロールを区別していることが確認された。
既存のMFA音響モデル(現在は29言語)を持つあらゆる言語に適用できる。
6つの言語のための完全なパイプラインと電話機能構成をリリースします。
関連論文リスト
- Adapting Self-Supervised Speech Representations for Cross-lingual Dysarthria Detection in Parkinson's Disease [72.0406069194794]
音声表現は、しばしば言語に依存した構造を符号化する。
本稿では,ソース言語による自己教師型音声表現とターゲット言語分布とを一致させる表現レベル言語シフトを提案する。
チェコ語,ドイツ語,スペイン語におけるパーキンソン病音声データセットの経口DDK記録に対するアプローチについて検討した。
論文 参考訳(メタデータ) (2026-03-23T17:23:39Z) - Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding [15.79973026677169]
事前訓練された音響モデルは、聴力音の音響パターンを検出するのに優れるが、臨床的意義を把握できないことが多い。
AcuLaは、医療用言語モデルと整合することで、任意のオーディオエンコーダに意味理解を組み込むフレームワークである。
我々の研究は、このオーディオ言語アライメントが純粋に音響モデルから臨床的に認識される診断ツールに変換することを実証している。
論文 参考訳(メタデータ) (2025-12-04T14:30:58Z) - National Institute on Aging PREPARE Challenge: Early Detection of Cognitive Impairment Using Speech -- The SpeechCARE Solution [1.0486773259892048]
アルツハイマー病と関連する認知症は、60歳以上の成人の5人に1人に影響を与えるが、認知低下した人の半数以上が未診断のままである。
SpeechCAREは、認知障害に関連する微妙な音声関連手がかりをキャプチャするマルチモーダル音声処理パイプラインである。
その堅牢な前処理には、自動転写、大規模言語モデル(LLM)に基づく異常検出、タスク識別が含まれる。
論文 参考訳(メタデータ) (2025-11-11T11:39:20Z) - Detecting COPD Through Speech Analysis: A Dataset of Danish Speech and Machine Learning Approach [4.132109134011237]
慢性閉塞性肺疾患(慢性閉塞性肺疾患、COPD)は、世界中の数百万人に影響を与える重篤で不安定な疾患である。
本研究は,COPD医療ソリューションの一部として,非侵襲的,遠隔的,スケーラブルなスクリーニングツールとしての音声分析の可能性を支持する。
論文 参考訳(メタデータ) (2025-08-04T12:44:07Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。