論文の概要: Analysis and Tuning of a Voice Assistant System for Dysfluent Speech
- arxiv url: http://arxiv.org/abs/2106.11759v1
- Date: Fri, 18 Jun 2021 20:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 05:24:57.838502
- Title: Analysis and Tuning of a Voice Assistant System for Dysfluent Speech
- Title(参考訳): ディフルレント音声のための音声アシスタントシステムの解析とチューニング
- Authors: Vikramjit Mitra, Zifang Huang, Colin Lea, Lauren Tooley, Sarah Wu,
Darren Botten, Ashwini Palekar, Shrinath Thelapurath, Panayiotis Georgiou,
Sachin Kajarekar, Jefferey Bigham
- Abstract要約: 音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
- 参考スコア(独自算出の注目度): 7.233685721929227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dysfluencies and variations in speech pronunciation can severely degrade
speech recognition performance, and for many individuals with
moderate-to-severe speech disorders, voice operated systems do not work.
Current speech recognition systems are trained primarily with data from fluent
speakers and as a consequence do not generalize well to speech with
dysfluencies such as sound or word repetitions, sound prolongations, or audible
blocks. The focus of this work is on quantitative analysis of a consumer speech
recognition system on individuals who stutter and production-oriented
approaches for improving performance for common voice assistant tasks (i.e.,
"what is the weather?"). At baseline, this system introduces a significant
number of insertion and substitution errors resulting in intended speech Word
Error Rates (isWER) that are 13.64\% worse (absolute) for individuals with
fluency disorders. We show that by simply tuning the decoding parameters in an
existing hybrid speech recognition system one can improve isWER by 24\%
(relative) for individuals with fluency disorders. Tuning these parameters
translates to 3.6\% better domain recognition and 1.7\% better intent
recognition relative to the default setup for the 18 study participants across
all stuttering severities.
- Abstract(参考訳): 音声発音の障害や変化は、音声認識性能を著しく低下させる可能性があり、中等度から重度の音声障害を持つ多くの個人にとって、音声操作システムは機能しない。
現在の音声認識システムは、主に流行った話者のデータで訓練されており、結果として、音声や単語の繰り返し、音声の延長、可聴ブロックなどの不均一性のある音声にうまく一般化していない。
本研究は,一般的な音声アシスタントタスク(すなわち「天気とは何か」)の性能向上のための生産指向の手法を用いて,消費者音声認識システムの定量的分析に焦点をあてた。
ベースラインでは、このシステムはかなりの数の挿入および置換エラーを導入し、結果として意図された音声単語誤り率(iswer)が、流血性障害を持つ個人に対して13.64\%悪化する(絶対的)。
既存のハイブリッド音声認識システムにおけるデコードパラメータを単純に調整することで、流感障害のある人に対しては、isWERを24倍(相対)改善できることを示す。
これらのパラメータのチューニングは、すべてのノイズを散らかす18人の研究参加者のデフォルト設定と比較して、ドメイン認識が3.6\%、意図認識が1.7\%向上することを意味する。
関連論文リスト
- Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment [1.0359008237358598]
失語症(Dysarthria)は、人間の音声システムに障害を引き起こす障害である。
本稿では,ガンマトーングラムを識別的詳細で音声ファイルを表現する効果的な方法として紹介する。
我々は,各音声ファイルを画像に変換し,異なるシナリオで音声を分類する画像認識システムを提案する。
論文 参考訳(メタデータ) (2023-07-06T21:10:50Z) - Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。
少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。
フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文 参考訳(メタデータ) (2023-06-08T17:28:28Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - I-vector Based Within Speaker Voice Quality Identification on connected
speech [3.2116198597240846]
声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。
ほとんどの音声障害は行動的音声療法によって治療され、患者に問題のある習慣のある音声生成メカニズムを置き換えるように教える。
同一人物が生成する様々な声質を自動的に区別する2つのシステムを構築した。
論文 参考訳(メタデータ) (2021-02-15T02:26:32Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。