論文の概要: On-Device Personalization of Automatic Speech Recognition Models for
Disordered Speech
- arxiv url: http://arxiv.org/abs/2106.10259v1
- Date: Fri, 18 Jun 2021 17:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:15:29.686301
- Title: On-Device Personalization of Automatic Speech Recognition Models for
Disordered Speech
- Title(参考訳): 障害音声の自動音声認識モデルのオンデバイスパーソナライズ
- Authors: Katrin Tomanek, Fran\c{c}oise Beaufays, Julie Cattiau, Angad
Chandorkar, Khe Chai Sim
- Abstract要約: デバイス上でのASRパーソナライズには非常に少ない話者データを用いたアプローチを提案する。
提案手法は,発話障害のある話者100名を対象に試行し,話者ごとの発話が50人程度しか必要とせず,単語誤り率の中央値が71%向上していることを確認した。
- 参考スコア(独自算出の注目度): 9.698986579582236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While current state-of-the-art Automatic Speech Recognition (ASR) systems
achieve high accuracy on typical speech, they suffer from significant
performance degradation on disordered speech and other atypical speech
patterns. Personalization of ASR models, a commonly applied solution to this
problem, is usually performed in a server-based training environment posing
problems around data privacy, delayed model-update times, and communication
cost for copying data and models between mobile device and server
infrastructure. In this paper, we present an approach to on-device based ASR
personalization with very small amounts of speaker-specific data. We test our
approach on a diverse set of 100 speakers with disordered speech and find
median relative word error rate improvement of 71% with only 50 short
utterances required per speaker. When tested on a voice-controlled home
automation platform, on-device personalized models show a median task success
rate of 81%, compared to only 40% of the unadapted models.
- Abstract(参考訳): 現在の最先端自動音声認識(ASR)システムは、典型的な音声に対して高い精度を達成するが、混乱した音声やその他の非定型音声パターンに対する顕著な性能劣化に悩まされる。
この問題に対する一般的なソリューションであるASRモデルのパーソナライズは通常、データプライバシ、遅延モデル更新時間、モバイルデバイスとサーバインフラストラクチャ間のデータやモデルをコピーするための通信コストに関する問題を引き起こすサーバベースのトレーニング環境で実行される。
本稿では,デバイス上でのasrパーソナライズへのアプローチについて紹介する。
提案手法は,発話障害のある話者100名を対象に試行し,話者ごとの発話が50人しか必要とせず,単語誤り率の中央値が71%向上した。
音声制御されたホームオートメーションプラットフォームでテストすると、デバイス上のパーソナライズされたモデルでは、未適応モデルの40%に対して、タスクの成功率は81%である。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection [46.855958156126164]
AS-70は、マンダリンで公開されている最初の音声データセットである。
本稿では,マンダリン発声音声データセットAS-70について紹介する。
論文 参考訳(メタデータ) (2024-06-11T13:35:50Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Nonverbal Sound Detection for Disordered Speech [24.636175845214822]
15個の非言語音を用いた音声事象検出に依拠する音声入力システムを提案する。
このシステムは、人の音声能力に関係なく動作し、既存の技術に完全にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2022-02-15T22:02:58Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Personalized Automatic Speech Recognition Trained on Small Disordered
Speech Datasets [0.0]
言語障害の度合いや種類によって異なる195人を対象に、パーソナライズされたモデルを訓練した。
ホームオートメーションのシナリオでは、話者の79%が18~20分間のスピーチでターゲットWERに到達したが、3~4分間のスピーチでは、話者の63%がターゲットWERに到達した。
論文 参考訳(メタデータ) (2021-10-09T17:11:17Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。