論文の概要: Enhancing ASR for Stuttered Speech with Limited Data Using Detect and
Pass
- arxiv url: http://arxiv.org/abs/2202.05396v1
- Date: Tue, 8 Feb 2022 19:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-20 16:22:50.341413
- Title: Enhancing ASR for Stuttered Speech with Limited Data Using Detect and
Pass
- Title(参考訳): 検出とパスを用いた限定データによる発声音声のASR強調
- Authors: Olabanji Shonibare, Xiaosu Tong, Venkatesh Ravichandran
- Abstract要約: 全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。
そこで本稿では,最新のASRシステムを実現するために,"Detect and Pass"と呼ばれるシンプルだが効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is estimated that around 70 million people worldwide are affected by a
speech disorder called stuttering. With recent advances in Automatic Speech
Recognition (ASR), voice assistants are increasingly useful in our everyday
lives. Many technologies in education, retail, telecommunication and healthcare
can now be operated through voice. Unfortunately, these benefits are not
accessible for People Who Stutter (PWS). We propose a simple but effective
method called 'Detect and Pass' to make modern ASR systems accessible for
People Who Stutter in a limited data setting. The algorithm uses a context
aware classifier trained on a limited amount of data, to detect acoustic frames
that contain stutter. To improve robustness on stuttered speech, this extra
information is passed on to the ASR model to be utilized during inference. Our
experiments show a reduction of 12.18% to 71.24% in Word Error Rate (WER)
across various state of the art ASR systems. Upon varying the threshold of the
associated posterior probability of stutter for each stacked frame used in
determining low frame rate (LFR) acoustic features, we were able to determine
an optimal setting that reduced the WER by 23.93% to 71.67% across different
ASR systems.
- Abstract(参考訳): 全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。
近年の音声認識(ASR)の進歩により,音声アシスタントは日常生活においてますます有用である。
教育、小売、通信、医療の多くの技術が音声で操作できるようになった。
残念ながら、これらの利点はPWS(People Who Stutter)にはアクセスできない。
本稿では, 限られたデータ環境において, 最新のASRシステムにアクセスしやすくするための, 簡易かつ効果的な手法"Detect and Pass"を提案する。
このアルゴリズムは、限られた量のデータに基づいて訓練された文脈認識分類器を使用して、スタッターを含む音響フレームを検出する。
発声音声のロバスト性を改善するため、この余分な情報は推論時に利用するASRモデルに渡される。
本実験では,様々な状態のart asrシステムにおいて,単語誤り率 (wer) が12.18%から71.24%削減されたことを示す。
低フレームレート (LFR) 音響特性の決定に使用する重み付きフレーム毎のスタッター後部確率の閾値を変動させると, WER を23.93% から71.67% に減少させる最適設定が決定できた。
関連論文リスト
- Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。
我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。
我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文 参考訳(メタデータ) (2024-11-01T19:11:54Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition [72.51848069125822]
本稿では,RAVEn法の拡張であるBRAVEnを提案する。
RAVEnの修正により、BRAVEnは自己教師付き手法で最先端の結果を得ることができる。
以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:48:20Z) - ASTER: Automatic Speech Recognition System Accessibility Testing for
Stutterers [25.466850759460364]
ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。
ASTERは5種類のスタブリングを注入することで有効なテストケースを生成する。
評価されたASRシステムでは,単語誤り率,一致誤り率,単語情報損失を著しく増大させる。
論文 参考訳(メタデータ) (2023-08-30T03:46:52Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered
Speech [20.2646788350211]
スタタリング(英: Stuttering)とは、音声の自然な流れが、音節、単語、フレーズのブロック、反復、延長によって中断される言語障害である。
本稿では,多種多様な発声音声を合成できるエンドツーエンドのニューラルテキスト・音声モデルであるStutter-TTSについて述べる。
論文 参考訳(メタデータ) (2022-11-04T23:45:31Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。