論文の概要: Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0
- arxiv url: http://arxiv.org/abs/2204.03417v1
- Date: Thu, 7 Apr 2022 13:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:22:20.044908
- Title: Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0
- Title(参考訳): wav2vec 2.0を用いたストータリング療法における副作用の検出
- Authors: Sebastian P. Bayerl, Dominik Wagner, Elmar N\"oth, Korbinian
Riedhammer
- Abstract要約: 英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
- 参考スコア(独自算出の注目度): 0.22940141855172028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stuttering is a varied speech disorder that harms an individual's
communication ability. Persons who stutter (PWS) often use speech therapy to
cope with their condition. Improving speech recognition systems for people with
such non-typical speech or tracking the effectiveness of speech therapy would
require systems that can detect dysfluencies while at the same time being able
to detect speech techniques acquired in therapy.
This paper shows that fine-tuning wav2vec 2.0 for the classification of
stuttering on a sizeable English corpus containing stuttered speech, in
conjunction with multi-task learning, boosts the effectiveness of the
general-purpose wav2vec 2.0 features for detecting stuttering in speech; both
within and across languages. We evaluate our method on Fluencybank and the
German therapy-centric Kassel State of Fluency (KSoF) dataset by training
Support Vector Machine classifiers using features extracted from the fine-tuned
models for six different stuttering-related events types: blocks,
prolongations, sound repetitions, word repetitions, interjections, and -
specific to therapy - speech modifications. Using embeddings from the
fine-tuned models leads to relative classification performance gains up to 27\%
w.r.t. F1-score.
- Abstract(参考訳): 発声は、個人のコミュニケーション能力を傷つける様々な言語障害である。
発声者(PWS)は、しばしば言語療法を用いて症状に対処する。
このような非定型的な発話や音声療法の有効性を追跡する音声認識システムの改善には、不均一性を検出すると同時に、セラピーで獲得した音声技術を検出するシステムが必要となる。
本稿では, マルチタスク学習と組み合わせて, 発声中の発声を検出するための汎用wav2vec 2.0機能の有効性を高めるため, 発声音声を含む英語コーパスにおいて, 発声の分類を行うための微調整wav2vec 2.0を提案する。
提案手法はFluencybankとKSoF(Kassel State of Fluency)データセットをトレーニングにより評価し,学習支援ベクトルマシン分類器を用いて,ブロック,延長,音の繰り返し,単語の反復,インタージェクション,治療に特有な音声修正の6種類のイベントタイプに対して,細調整したモデルから抽出した特徴を抽出した。
微調整されたモデルからの埋め込みを使用することで、相対的な分類性能はF1スコアの27\%まで向上する。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - MMSD-Net: Towards Multi-modal Stuttering Detection [9.257985820122999]
MMSD-Netは、スタブリング検出のための最初のマルチモーダルニューラルネットワークフレームワークである。
我々のモデルでは、既存の最先端ユニモーダルアプローチよりもF1スコアが2-17%向上している。
論文 参考訳(メタデータ) (2024-07-16T08:26:59Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset
of Stuttering [58.91587609873915]
この研究で紹介されるKassel State of Fluency (KSoF)は、治療ベースのデータセットで、5500以上の散在するPWSのクリップを含んでいる。
オーディオは、Institut der Kasseler Stottertherapieのセラピーセッション中に録音された。
論文 参考訳(メタデータ) (2022-03-10T14:17:07Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Stutter Diagnosis and Therapy System Based on Deep Learning [2.3581263491506097]
スタッタリング(stammering)は、音声の連続性を破るコミュニケーション障害である。
本稿では,MFCC音声特徴に対するGated Recurrent CNNを用いたスタッター診断エージェントの実装と,SVMを用いた治療勧告エージェントの実装に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T10:24:02Z) - Towards Automated Assessment of Stuttering and Stuttering Therapy [0.22940141855172028]
発声は複雑な発声障害であり、繰り返し、音、音節または単語の延長、発話中のブロックによって識別できる。
発声重大度評価の一般的な方法は、発声中の3つの最長発声症状の平均である発声音節(%SS)、最近導入された発声効率スコア(SES)などがある。
本稿では,スタブリングの重症度を評価する新しい手法である音声制御指標(SCI)を提案する。
論文 参考訳(メタデータ) (2020-06-16T14:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。