論文の概要: Data Augmentation for Training Dialog Models Robust to Speech
Recognition Errors
- arxiv url: http://arxiv.org/abs/2006.05635v1
- Date: Wed, 10 Jun 2020 03:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:04:02.726103
- Title: Data Augmentation for Training Dialog Models Robust to Speech
Recognition Errors
- Title(参考訳): 音声認識誤りに頑健なダイアログモデルのトレーニングのためのデータ拡張
- Authors: Longshaokan Wang, Maryam Fazel-Zarandi, Aditya Tiwari, Spyros
Matsoukas, Lazaros Polymenakos
- Abstract要約: Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換する。
ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。
我々は、ASRエラーシミュレータを利用して、エラーのないテキストデータにノイズを注入し、その後、拡張データでダイアログモデルを訓練する。
- 参考スコア(独自算出の注目度): 5.53506103787497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-based virtual assistants, such as Amazon Alexa, Google assistant, and
Apple Siri, typically convert users' audio signals to text data through
automatic speech recognition (ASR) and feed the text to downstream dialog
models for natural language understanding and response generation. The ASR
output is error-prone; however, the downstream dialog models are often trained
on error-free text data, making them sensitive to ASR errors during inference
time. To bridge the gap and make dialog models more robust to ASR errors, we
leverage an ASR error simulator to inject noise into the error-free text data,
and subsequently train the dialog models with the augmented data. Compared to
other approaches for handling ASR errors, such as using ASR lattice or
end-to-end methods, our data augmentation approach does not require any
modification to the ASR or downstream dialog models; our approach also does not
introduce any additional latency during inference time. We perform extensive
experiments on benchmark data and show that our approach improves the
performance of downstream dialog models in the presence of ASR errors, and it
is particularly effective in the low-resource situations where there are
constraints on model size or the training data is scarce.
- Abstract(参考訳): Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換し、自然言語理解と応答生成のための下流ダイアログモデルにテキストを供給します。
ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。
このギャップを埋めて、ASRエラーに対してより堅牢なダイアログモデルを構築するために、ASRエラーシミュレータを用いてエラーのないテキストデータにノイズを注入し、次に拡張データでダイアログモデルを訓練する。
ASR格子やエンドツーエンドメソッドなどの他のASRエラー処理手法と比較して、データ拡張アプローチでは、ASRや下流のダイアログモデルの変更は不要である。
我々は,ベンチマークデータに対する広範な実験を行い,ASRエラーが存在する場合の下流ダイアログモデルの性能向上を示すとともに,モデルサイズに制約がある場合やトレーニングデータが少ない場合の低リソース環境では特に有効であることを示す。
関連論文リスト
- An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Building an ASR Error Robust Spoken Virtual Patient System in a Highly
Class-Imbalanced Scenario Without Speech Data [20.357369521268417]
仮想患者(VP)は、医学生に患者の歴史を学ばせるための強力なツールである。
提案手法は, 単語誤り率設定におけるVP意図分類タスクに対して, 強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:13:33Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。