論文の概要: ASR Error Correction and Domain Adaptation Using Machine Translation
- arxiv url: http://arxiv.org/abs/2003.07692v1
- Date: Fri, 13 Mar 2020 20:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:31:31.267941
- Title: ASR Error Correction and Domain Adaptation Using Machine Translation
- Title(参考訳): 機械翻訳を用いたASR誤り訂正と領域適応
- Authors: Anirudh Mani, Shruti Palaskar, Nimshi Venkat Meripo, Sandeep Konam,
Florian Metze
- Abstract要約: 機械翻訳によるASR誤り訂正のための領域適応手法を提案する。
Google ASR出力における単語誤り率の絶対的改善とBLEUスコアの4点絶対的改善を観察した。
- 参考スコア(独自算出の注目度): 32.27379508770736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-the-shelf pre-trained Automatic Speech Recognition (ASR) systems are an
increasingly viable service for companies of any size building speech-based
products. While these ASR systems are trained on large amounts of data, domain
mismatch is still an issue for many such parties that want to use this service
as-is leading to not so optimal results for their task. We propose a simple
technique to perform domain adaptation for ASR error correction via machine
translation. The machine translation model is a strong candidate to learn a
mapping from out-of-domain ASR errors to in-domain terms in the corresponding
reference files. We use two off-the-shelf ASR systems in this work: Google ASR
(commercial) and the ASPIRE model (open-source). We observe 7% absolute
improvement in word error rate and 4 point absolute improvement in BLEU score
in Google ASR output via our proposed method. We also evaluate ASR error
correction via a downstream task of Speaker Diarization that captures speaker
style, syntax, structure and semantic improvements we obtain via ASR
correction.
- Abstract(参考訳): 市販の事前学習型自動音声認識(asr)システムは、音声ベースの製品を構築するあらゆる規模の企業にとって、ますます有望なサービスだ。
これらのASRシステムは大量のデータに基づいてトレーニングされているが、ドメインミスマッチは、このサービスを使いたいと考える多くの当事者にとって依然として問題である。
本稿では,機械翻訳によるASR誤り訂正のためのドメイン適応手法を提案する。
機械翻訳モデルは、ドメイン外のASRエラーから対応する参照ファイルのドメイン内用語へのマッピングを学ぶための強力な候補である。
この作業では、Google ASR(商用)とASPIRE(オープンソース)の2つの既製のASRシステムを使用します。
提案手法を用いて,Google ASR出力における単語誤り率の7%,BLEUスコアの4点絶対改善を観測した。
また,asr補正によって得られた話者スタイル,構文,構造,意味的改善を捉えた話者ダイアリゼーションの下流タスクを通じて,asr誤り訂正を評価する。
関連論文リスト
- Can Generative Large Language Models Perform ASR Error Correction? [16.246481696611117]
生成型大規模言語モデル(LLM)は、幅広い自然言語処理タスクに適用されている。
本稿では, ASR 誤り訂正のための生成 LLM である ChatGPT を用いて検討する。
実験により、このジェネレーティブLLMアプローチは、2つの異なる最先端のASRアーキテクチャの性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-09T13:38:25Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。