論文の概要: Self-supervised Speech Models for Word-Level Stuttered Speech Detection
- arxiv url: http://arxiv.org/abs/2409.10704v1
- Date: Mon, 16 Sep 2024 20:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 18:40:30.087891
- Title: Self-supervised Speech Models for Word-Level Stuttered Speech Detection
- Title(参考訳): 単語レベル発声音声検出のための自己教師型音声モデル
- Authors: Yi-Jen Shih, Zoi Gkalitsiou, Alexandros G. Dimakis, David Harwath,
- Abstract要約: 自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
- 参考スコア(独自算出の注目度): 66.46810024006712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical diagnosis of stuttering requires an assessment by a licensed speech-language pathologist. However, this process is time-consuming and requires clinicians with training and experience in stuttering and fluency disorders. Unfortunately, only a small percentage of speech-language pathologists report being comfortable working with individuals who stutter, which is inadequate to accommodate for the 80 million individuals who stutter worldwide. Developing machine learning models for detecting stuttered speech would enable universal and automated screening for stuttering, enabling speech pathologists to identify and follow up with patients who are most likely to be diagnosed with a stuttering speech disorder. Previous research in this area has predominantly focused on utterance-level detection, which is not sufficient for clinical settings where word-level annotation of stuttering is the norm. In this study, we curated a stuttered speech dataset with word-level annotations and introduced a word-level stuttering speech detection model leveraging self-supervised speech models. Our evaluation demonstrates that our model surpasses previous approaches in word-level stuttering speech detection. Additionally, we conducted an extensive ablation analysis of our method, providing insight into the most important aspects of adapting self-supervised speech models for stuttered speech detection.
- Abstract(参考訳): 発声の臨床的診断には、認可された言語病理医による評価が必要である。
しかし、このプロセスは時間がかかり、発疹や流感障害の訓練と経験を持つ臨床医が必要である。
残念なことに、言語病理学者の報告はごくわずかしかなく、世界中に散らばっている8000万人の人には不適当だ。
発声を検知する機械学習モデルを開発することで、発声の普遍的かつ自動化されたスクリーニングが可能になり、発声障害と診断される可能性が最も高い患者を言語病理医が識別し、追跡することができる。
この領域における従来の研究は主に発話レベルの検出に焦点が当てられていたが、これは、単語レベルのスタブリングアノテーションが標準である臨床環境では不十分である。
本研究では,単語レベルのアノテーションを用いた発声音声データセットをキュレートし,自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
さらに,本手法の広範囲なアブレーション解析を行い,発声検出に自己教師付き音声モデルを適用する上で最も重要な側面について考察した。
関連論文リスト
- Impact of Speech Mode in Automatic Pathological Speech Detection [14.011517808456892]
本稿では,病的音声検出における音声モードの影響を解析する。
古典的な機械学習とディープラーニングという2つのカテゴリのアプローチを調べます。
以上の結果から,古典的アプローチは自然発話における病因判別に苦慮している可能性が示唆された。
対照的に、ディープラーニングアプローチは優れた性能を示し、非自発音声では従来アクセス不能だった追加の手がかりを抽出する。
論文 参考訳(メタデータ) (2024-06-14T12:19:18Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset
of Stuttering [58.91587609873915]
この研究で紹介されるKassel State of Fluency (KSoF)は、治療ベースのデータセットで、5500以上の散在するPWSのクリップを含んでいる。
オーディオは、Institut der Kasseler Stottertherapieのセラピーセッション中に録音された。
論文 参考訳(メタデータ) (2022-03-10T14:17:07Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Machine Learning for Stuttering Identification: Review, Challenges &
Future Directions [9.726119468893721]
発声は、不随意の停止と音の繰り返しによって発声の流れが中断される発声障害である。
機械学習とディープラーニングの最近の進歩は、音声領域を劇的に革新させた。
この研究は、学際的な分野から研究者を集めようとすることでギャップを埋める。
論文 参考訳(メタデータ) (2021-07-08T18:15:20Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Stutter Diagnosis and Therapy System Based on Deep Learning [2.3581263491506097]
スタッタリング(stammering)は、音声の連続性を破るコミュニケーション障害である。
本稿では,MFCC音声特徴に対するGated Recurrent CNNを用いたスタッター診断エージェントの実装と,SVMを用いた治療勧告エージェントの実装に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T10:24:02Z) - Towards Automated Assessment of Stuttering and Stuttering Therapy [0.22940141855172028]
発声は複雑な発声障害であり、繰り返し、音、音節または単語の延長、発話中のブロックによって識別できる。
発声重大度評価の一般的な方法は、発声中の3つの最長発声症状の平均である発声音節(%SS)、最近導入された発声効率スコア(SES)などがある。
本稿では,スタブリングの重症度を評価する新しい手法である音声制御指標(SCI)を提案する。
論文 参考訳(メタデータ) (2020-06-16T14:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。