Fugu-MT 論文翻訳(概要): Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning

論文の概要: Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning

arxiv url: http://arxiv.org/abs/2210.15387v1
Date: Thu, 27 Oct 2022 12:48:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 13:02:53.283414
Title: Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning
Title（参考訳）: マルチタスク学習を用いた自己教師付きモデルによる構音障害の重症度自動評価
Authors: Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung
Abstract要約: マルチタスク学習を併用した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。 Wav2vec 2.0 XLS-Rは重度レベル分類と補助的自動音声認識(ASR)の2つのタスクに対して共同で訓練される本モデルでは,分類精度が4.79%向上し,従来のベースライン法よりも優れていた。
参考スコア（独自算出の注目度）: 4.947423926765435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity level classification and an auxilary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted features such as eGeMaps and linguistic features, and SVM, MLP, and XGBoost classifiers. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 4.79% for classification accuracy. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.09% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect.
Abstract（参考訳）: 変形性音声の自動評価は持続的治療とリハビリテーションに不可欠である。しかし、非典型的音声の取得は困難であり、しばしばデータ不足の問題を引き起こす。そこで本研究では,マルチタスク学習を併用した自己教師付きモデルを用いて,構音障害の重症度自動評価手法を提案する。 Wav2vec 2.0 XLS-Rは重度レベル分類と補助的自動音声認識(ASR)という2つのタスクで共同で訓練されている。基礎実験では,egemapや言語的特徴,svm,mlp,xgboost分類器などの手作り特徴を用いた。韓国産dysarthric speech qoltデータベースについて検討した結果,本モデルは従来のベースライン法を上回っており,分類精度は4.79%であった。さらに、提案モデルは、ASRヘッドなしで訓練されたモデルを超え、10.09%の相対パーセンテージ改善を達成した。さらに,マルチタスク学習が潜在表現と正規化効果を分析し,重度分類性能にどのように影響するかを示す。

関連論文リスト

Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models [4.917936997225074]
MLC-SLM(Multilingual Conversational Speech Language Model Challenge)の両トラック用システム ASRのための音声モデルにおいて、推論と自己補正を明確に強化する多段階学習パイプラインを導入する。
論文参考訳（メタデータ） (2025-06-16T09:42:05Z)
Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models [7.774205081900019]
頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。
論文参考訳（メタデータ） (2024-06-07T08:51:52Z)
Speaker-Independent Dysarthria Severity Classification using Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文参考訳（メタデータ） (2024-02-29T18:30:52Z)
A Few-Shot Approach to Dysarthric Speech Intelligibility Level Classification Using Transformers [0.0]
発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
論文参考訳（メタデータ） (2023-09-17T17:23:41Z)
A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment [6.284142286798582]
以上の結果から,HuBERTは難聴分類,単語認識,インテリジェンス分類において最も汎用性の高い特徴抽出器であり,従来の音響特徴と比較して,それぞれ+24.7%,+61%,テキストおよび+7.2%の精度を実現していることがわかった。
論文参考訳（メタデータ） (2023-06-07T11:04:02Z)
Leveraging Pretrained Representations with Task-related Keywords for Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文参考訳（メタデータ） (2023-03-14T16:03:28Z)
Automated Fidelity Assessment for Strategy Training in Inpatient Rehabilitation using Natural Language Processing [53.096237570992294]
戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすためのスキルを教える、リハビリテーションのアプローチである。標準化された忠実度評価は治療原則の遵守度を測定するために用いられる。本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。
論文参考訳（メタデータ） (2022-09-14T15:33:30Z)
Performance or Trust? Why Not Both. Deep AUC Maximization with Self-Supervised Learning for COVID-19 Chest X-ray Classifications [72.52228843498193]
ディープラーニングモデルのトレーニングでは、パフォーマンスと信頼の間に妥協をしなければなりません。本研究は、新型コロナウイルス患者のコンピュータ支援スクリーニングのための自己教師型学習と新しい代理損失を統合したものである。
論文参考訳（メタデータ） (2021-12-14T21:16:52Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文参考訳（メタデータ） (2021-02-10T13:00:29Z)
Incremental Learning for End-to-End Automatic Speech Recognition [41.297106772785206]
エンドツーエンド自動音声認識(ASR)のための漸進的学習法を提案する。本稿では, ASRモデルに対する新しい説明可能性に基づく知識蒸留を設計し, 応答に基づく知識蒸留と組み合わせて, 元のモデルの予測と予測の「理性」を維持する。多段階連続訓練タスクの結果,提案手法は忘れを緩和する上で,既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-05-11T08:18:08Z)
Self-Training with Improved Regularization for Sample-Efficient Chest X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文参考訳（メタデータ） (2020-05-03T02:36:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。