論文の概要: A Few-Shot Approach to Dysarthric Speech Intelligibility Level
Classification Using Transformers
- arxiv url: http://arxiv.org/abs/2309.09329v1
- Date: Sun, 17 Sep 2023 17:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 16:14:00.016970
- Title: A Few-Shot Approach to Dysarthric Speech Intelligibility Level
Classification Using Transformers
- Title(参考訳): トランスフォーマーを用いた構音障害児の音声明瞭度分類の試み
- Authors: Paleti Nikhil Chowdary, Vadlapudi Sai Aravind, Gorantla V N S L Vishnu
Vardhan, Menta Sai Akshay, Menta Sai Aashish, Jyothish Lal. G
- Abstract要約: 発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。
文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。
この研究は、変形の有無を正確に分類できるモデルを開発することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dysarthria is a speech disorder that hinders communication due to
difficulties in articulating words. Detection of dysarthria is important for
several reasons as it can be used to develop a treatment plan and help improve
a person's quality of life and ability to communicate effectively. Much of the
literature focused on improving ASR systems for dysarthric speech. The
objective of the current work is to develop models that can accurately classify
the presence of dysarthria and also give information about the intelligibility
level using limited data by employing a few-shot approach using a transformer
model. This work also aims to tackle the data leakage that is present in
previous studies. Our whisper-large-v2 transformer model trained on a subset of
the UASpeech dataset containing medium intelligibility level patients achieved
an accuracy of 85%, precision of 0.92, recall of 0.8 F1-score of 0.85, and
specificity of 0.91. Experimental results also demonstrate that the model
trained using the 'words' dataset performed better compared to the model
trained on the 'letters' and 'digits' dataset. Moreover, the multiclass model
achieved an accuracy of 67%.
- Abstract(参考訳): 発声障害(Dysarthria)は、言葉の発音が難しいことによるコミュニケーションを妨げる言語障害である。
患者の生活の質と効果的なコミュニケーション能力を向上させるために、治療計画の作成や支援に使用できるため、変形症の検出はいくつかの理由から重要である。
文献の多くは、変形性音声に対するASRシステムの改善に焦点を当てている。
本研究の目的は、変形器モデルを用いた数発のアプローチを用いて、変形性の有無を正確に分類し、限られたデータを用いてインテリジェンスレベルに関する情報を提供するモデルを開発することである。
この研究は、過去の研究で見られるデータ漏洩にも取り組みます。
中等度患者を含むUASpeechデータセットのサブセットをトレーニングしたWhisper-large-v2トランスフォーマーモデルは,精度85%,精度0.92,リコール0.8F1スコア0.85,特異度0.91を得た。
実験の結果,'ワード'データセットを用いてトレーニングしたモデルは,'レター'データセットと'ディジット'データセットでトレーニングされたモデルよりも優れた性能を示した。
さらに,マルチクラスモデルの精度は67%であった。
関連論文リスト
- Leveraging Pre-trained Models for Robust Federated Learning for Kidney Stone Type Recognition [1.7243216387069678]
プレトレーニングモデルを用いて腎臓結石診断を改善するための強力なFLフレームワークを提案する。
診断精度は84.1%であり,LPOでは7回,LPOでは10回,FRVでは77.2%,画像破壊では77.2%であった。
論文 参考訳(メタデータ) (2024-09-30T04:23:47Z) - Automatic diagnosis of knee osteoarthritis severity using Swin
transformer [55.01037422579516]
変形性膝関節症 (KOA) は膝関節の慢性的な痛みと硬直を引き起こす疾患である。
我々は,Swin Transformer を用いて KOA の重大度を予測する自動手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T09:49:30Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Automatic Severity Classification of Dysarthric speech by using
Self-supervised Model with Multi-task Learning [4.947423926765435]
マルチタスク学習と連動した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)の2つのタスクで訓練される
本モデルでは,F1スコアの相対値が1.25%増加し,従来のベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:48:10Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Deep Learning-Based Detection of the Acute Respiratory Distress
Syndrome: What Are the Models Learning? [5.827840113217155]
急性呼吸窮迫症候群 (ARDS) は低酸素性呼吸不全の重症型であり、院内死亡率は35-46%である。
高死亡率は、即時診断を行う際の課題と関連していると考えられており、その結果、エビデンスベースの治療の実施が遅れる可能性がある。
未バイアス人工呼吸器波形データ(VWD)を利用したディープニューラルネットワーク(DNN)アルゴリズムは、ARDSのスクリーニングを改善するのに役立つかもしれない。
論文 参考訳(メタデータ) (2021-09-25T09:10:10Z) - Assessing clinical utility of Machine Learning and Artificial
Intelligence approaches to analyze speech recordings in Multiple Sclerosis: A
Pilot Study [1.6582693134062305]
本研究の目的は, 音声記録を用いた多発性硬化症の診断, バイオマーカー抽出, 進展モニタリングを支援するための機械学習と深層学習/AIアプローチの臨床的有用性を検討することである。
ランダムフォレストモデルは、バリデーションデータセットの精度0.82、トレーニングデータセットの5k倍サイクルの面積0.76の精度を達成した。
論文 参考訳(メタデータ) (2021-09-20T21:02:37Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。