論文の概要: Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2403.00854v1
- Date: Thu, 29 Feb 2024 18:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:30:06.089957
- Title: Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning
- Title(参考訳): 自己教師付きトランスフォーマーとマルチタスク学習を用いた話者非依存性等級分類
- Authors: Lauren Stumpf and Balasundaram Kadirvelu and Sigourney Waibel and A.
Aldo Faisal
- Abstract要約: 本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
- 参考スコア(独自算出の注目度): 2.7706924578324665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dysarthria, a condition resulting from impaired control of the speech muscles
due to neurological disorders, significantly impacts the communication and
quality of life of patients. The condition's complexity, human scoring and
varied presentations make its assessment and management challenging. This study
presents a transformer-based framework for automatically assessing dysarthria
severity from raw speech data. It can offer an objective, repeatable,
accessible, standardised and cost-effective and compared to traditional methods
requiring human expert assessors. We develop a transformer framework, called
Speaker-Agnostic Latent Regularisation (SALR), incorporating a multi-task
learning objective and contrastive learning for speaker-independent multi-class
dysarthria severity classification. The multi-task framework is designed to
reduce reliance on speaker-specific characteristics and address the intrinsic
intra-class variability of dysarthric speech. We evaluated on the Universal
Access Speech dataset using leave-one-speaker-out cross-validation, our model
demonstrated superior performance over traditional machine learning approaches,
with an accuracy of $70.48\%$ and an F1 score of $59.23\%$. Our SALR model also
exceeded the previous benchmark for AI-based classification, which used support
vector machines, by $16.58\%$. We open the black box of our model by
visualising the latent space where we can observe how the model substantially
reduces speaker-specific cues and amplifies task-specific ones, thereby showing
its robustness. In conclusion, SALR establishes a new benchmark in
speaker-independent multi-class dysarthria severity classification using
generative AI. The potential implications of our findings for broader clinical
applications in automated dysarthria severity assessments.
- Abstract(参考訳): 神経疾患による舌の筋肉の制御障害から生じる疾患であるDysarthriaは、患者のコミュニケーションや生活の質に大きな影響を及ぼす。
条件の複雑さ、人間のスコア、様々なプレゼンテーションは評価と管理を困難にする。
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
客観的で反復可能で、アクセス性があり、標準化され、コスト効率が良く、従来の人間の専門家による評価方法と比較できる。
本研究では,話者非依存型多クラス重度分類のためのマルチタスク学習目標とコントラスト学習を組み込んだ,話者非依存型潜在正規化(salr)と呼ばれるトランスフォーマフレームワークを開発した。
マルチタスクフレームワークは、話者固有の特性への依存度を低減し、摂動性構音のクラス内変動性に対処するように設計されている。
その結果、従来の機械学習手法よりも優れた性能を示し、精度は70.48\%$、f1スコアは59.23\%$であった。
我々のSALRモデルは、サポートベクターマシンを使用したAIベースの分類の以前のベンチマークを16.58セントで上回った。
モデルが話者固有の手がかりを実質的に削減し、タスク固有のものを増幅し、その堅牢性を示すために、潜在空間を可視化することで、モデルのブラックボックスを開きます。
結論として、SALRは、生成AIを用いた話者非依存型多階級性難聴度分類の新しいベンチマークを確立した。
重症度自動評価における臨床応用の可能性について検討した。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment [6.284142286798582]
以上の結果から,HuBERTは難聴分類,単語認識,インテリジェンス分類において最も汎用性の高い特徴抽出器であり,従来の音響特徴と比較して,それぞれ+24.7%,+61%,テキストおよび+7.2%の精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-06-07T11:04:02Z) - Automatic Severity Classification of Dysarthric speech by using
Self-supervised Model with Multi-task Learning [4.947423926765435]
マルチタスク学習と連動した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)の2つのタスクで訓練される
本モデルでは,F1スコアの相対値が1.25%増加し,従来のベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:48:10Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。