論文の概要: Automatic Speech Recognition (ASR) for the Diagnosis of pronunciation of
Speech Sound Disorders in Korean children
- arxiv url: http://arxiv.org/abs/2403.08187v1
- Date: Wed, 13 Mar 2024 02:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:49:50.595414
- Title: Automatic Speech Recognition (ASR) for the Diagnosis of pronunciation of
Speech Sound Disorders in Korean children
- Title(参考訳): 発音診断のための音声認識(ASR)
韓国の子どもにおける音声障害
- Authors: Taekyung Ahn, Yeonjung Hong, Younggon Im, Do Hyung Kim, Dayoung Kang,
Joo Won Jeong, Jae Won Kim, Min Jung Kim, Ah-ra Cho, Dae-Hyun Jang and Hosung
Nam
- Abstract要約: 本研究では,音声障害児の発音障害を診断するための音声認識モデルを提案する。
モデルの単語の発音予測は、約90%の精度で人間のアノテーションと一致した。
- 参考スコア(独自算出の注目度): 4.840474991678558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents a model of automatic speech recognition (ASR) designed to
diagnose pronunciation issues in children with speech sound disorders (SSDs) to
replace manual transcriptions in clinical procedures. Since ASR models trained
for general purposes primarily predict input speech into real words, employing
a well-known high-performance ASR model for evaluating pronunciation in
children with SSDs is impractical. We fine-tuned the wav2vec 2.0 XLS-R model to
recognize speech as pronounced rather than as existing words. The model was
fine-tuned with a speech dataset from 137 children with inadequate speech
production pronouncing 73 Korean words selected for actual clinical diagnosis.
The model's predictions of the pronunciations of the words matched the human
annotations with about 90% accuracy. While the model still requires improvement
in recognizing unclear pronunciation, this study demonstrates that ASR models
can streamline complex pronunciation error diagnostic procedures in clinical
fields.
- Abstract(参考訳): 本研究は,音声障害児(SSD)の発音障害を診断するための自動音声認識(ASR)モデルを提案する。
一般的な目的のために訓練されたASRモデルは、主に実際の単語への入力音声を予測するため、SSDを持つ子供の発音を評価するためによく知られた高性能のASRモデルを用いるのは現実的ではない。
我々はwav2vec 2.0 XLS-Rモデルを微調整し、既存の単語ではなく発音として認識した。
本モデルは, 実際の臨床診断のために選択された73の韓国語を発音し, 発話が不十分な137人の子供の音声データセットを用いて微調整した。
モデルの単語の発音予測は、約90%の精度で人間のアノテーションと一致した。
本研究は, ASRモデルが臨床領域における複雑な発音誤り診断の手順を合理化できることを示すものである。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - Automatic Speech recognition for Speech Assessment of Preschool Children [4.554894288663752]
本研究では,幼児期の音声の音響的特徴と言語的特徴について検討した。
Wav2Vec 2.0は、堅牢なエンドツーエンド音声認識システムを構築するために使用できるパラダイムである。
論文 参考訳(メタデータ) (2022-03-24T07:15:24Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - Experiments of ASR-based mispronunciation detection for children and
adult English learners [7.083737676329174]
非母国語話者の発音をチェックする誤発音評価システムを開発した。
本稿では,音声コーパスにおける非母語発音の評価について述べる。
論文 参考訳(メタデータ) (2021-04-13T07:24:05Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。