論文の概要: Automatic Severity Assessment of Dysarthric speech by using
Self-supervised Model with Multi-task Learning
- arxiv url: http://arxiv.org/abs/2210.15387v1
- Date: Thu, 27 Oct 2022 12:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:02:53.283414
- Title: Automatic Severity Assessment of Dysarthric speech by using
Self-supervised Model with Multi-task Learning
- Title(参考訳): マルチタスク学習を用いた自己教師付きモデルによる構音障害の重症度自動評価
- Authors: Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung
- Abstract要約: マルチタスク学習を併用した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度レベル分類と補助的自動音声認識(ASR)の2つのタスクに対して共同で訓練される
本モデルでは,分類精度が4.79%向上し,従来のベースライン法よりも優れていた。
- 参考スコア(独自算出の注目度): 4.947423926765435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic assessment of dysarthric speech is essential for sustained
treatments and rehabilitation. However, obtaining atypical speech is
challenging, often leading to data scarcity issues. To tackle the problem, we
propose a novel automatic severity assessment method for dysarthric speech,
using the self-supervised model in conjunction with multi-task learning.
Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity level
classification and an auxilary automatic speech recognition (ASR). For the
baseline experiments, we employ hand-crafted features such as eGeMaps and
linguistic features, and SVM, MLP, and XGBoost classifiers. Explored on the
Korean dysarthric speech QoLT database, our model outperforms the traditional
baseline methods, with a relative percentage increase of 4.79% for
classification accuracy. In addition, the proposed model surpasses the model
trained without ASR head, achieving 10.09% relative percentage improvements.
Furthermore, we present how multi-task learning affects the severity
classification performance by analyzing the latent representations and
regularization effect.
- Abstract(参考訳): 変形性音声の自動評価は持続的治療とリハビリテーションに不可欠である。
しかし、非典型的音声の取得は困難であり、しばしばデータ不足の問題を引き起こす。
そこで本研究では,マルチタスク学習を併用した自己教師付きモデルを用いて,構音障害の重症度自動評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度レベル分類と補助的自動音声認識(ASR)という2つのタスクで共同で訓練されている。
基礎実験では,egemapや言語的特徴,svm,mlp,xgboost分類器などの手作り特徴を用いた。
韓国産dysarthric speech qoltデータベースについて検討した結果,本モデルは従来のベースライン法を上回っており,分類精度は4.79%であった。
さらに、提案モデルは、ASRヘッドなしで訓練されたモデルを超え、10.09%の相対パーセンテージ改善を達成した。
さらに,マルチタスク学習が潜在表現と正規化効果を分析し,重度分類性能にどのように影響するかを示す。
関連論文リスト
- Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models [7.774205081900019]
頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。
本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。
論文 参考訳(メタデータ) (2024-06-07T08:51:52Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - A Few-Shot Approach to Dysarthric Speech Intelligibility Level
Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。
文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。
この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文 参考訳(メタデータ) (2023-09-17T17:23:41Z) - A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment [6.284142286798582]
以上の結果から,HuBERTは難聴分類,単語認識,インテリジェンス分類において最も汎用性の高い特徴抽出器であり,従来の音響特徴と比較して,それぞれ+24.7%,+61%,テキストおよび+7.2%の精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-06-07T11:04:02Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Automated Fidelity Assessment for Strategy Training in Inpatient
Rehabilitation using Natural Language Processing [53.096237570992294]
戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすためのスキルを教える、リハビリテーションのアプローチである。
標準化された忠実度評価は治療原則の遵守度を測定するために用いられる。
本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。
論文 参考訳(メタデータ) (2022-09-14T15:33:30Z) - Performance or Trust? Why Not Both. Deep AUC Maximization with
Self-Supervised Learning for COVID-19 Chest X-ray Classifications [72.52228843498193]
ディープラーニングモデルのトレーニングでは、パフォーマンスと信頼の間に妥協をしなければなりません。
本研究は、新型コロナウイルス患者のコンピュータ支援スクリーニングのための自己教師型学習と新しい代理損失を統合したものである。
論文 参考訳(メタデータ) (2021-12-14T21:16:52Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。
本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。
多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-11T08:18:08Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。