論文の概要: ASR Error Correction and Domain Adaptation Using Machine Translation
- arxiv url: http://arxiv.org/abs/2003.07692v1
- Date: Fri, 13 Mar 2020 20:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:31:31.267941
- Title: ASR Error Correction and Domain Adaptation Using Machine Translation
- Title(参考訳): 機械翻訳を用いたASR誤り訂正と領域適応
- Authors: Anirudh Mani, Shruti Palaskar, Nimshi Venkat Meripo, Sandeep Konam,
Florian Metze
- Abstract要約: 機械翻訳によるASR誤り訂正のための領域適応手法を提案する。
Google ASR出力における単語誤り率の絶対的改善とBLEUスコアの4点絶対的改善を観察した。
- 参考スコア(独自算出の注目度): 32.27379508770736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-the-shelf pre-trained Automatic Speech Recognition (ASR) systems are an
increasingly viable service for companies of any size building speech-based
products. While these ASR systems are trained on large amounts of data, domain
mismatch is still an issue for many such parties that want to use this service
as-is leading to not so optimal results for their task. We propose a simple
technique to perform domain adaptation for ASR error correction via machine
translation. The machine translation model is a strong candidate to learn a
mapping from out-of-domain ASR errors to in-domain terms in the corresponding
reference files. We use two off-the-shelf ASR systems in this work: Google ASR
(commercial) and the ASPIRE model (open-source). We observe 7% absolute
improvement in word error rate and 4 point absolute improvement in BLEU score
in Google ASR output via our proposed method. We also evaluate ASR error
correction via a downstream task of Speaker Diarization that captures speaker
style, syntax, structure and semantic improvements we obtain via ASR
correction.
- Abstract(参考訳): 市販の事前学習型自動音声認識(asr)システムは、音声ベースの製品を構築するあらゆる規模の企業にとって、ますます有望なサービスだ。
これらのASRシステムは大量のデータに基づいてトレーニングされているが、ドメインミスマッチは、このサービスを使いたいと考える多くの当事者にとって依然として問題である。
本稿では,機械翻訳によるASR誤り訂正のためのドメイン適応手法を提案する。
機械翻訳モデルは、ドメイン外のASRエラーから対応する参照ファイルのドメイン内用語へのマッピングを学ぶための強力な候補である。
この作業では、Google ASR(商用)とASPIRE(オープンソース)の2つの既製のASRシステムを使用します。
提案手法を用いて,Google ASR出力における単語誤り率の7%,BLEUスコアの4点絶対改善を観測した。
また,asr補正によって得られた話者スタイル,構文,構造,意味的改善を捉えた話者ダイアリゼーションの下流タスクを通じて,asr誤り訂正を評価する。
関連論文リスト
- ASR Error Correction using Large Language Models [4.75940708384553]
誤り訂正(EC)モデルは、自動音声認識(ASR)転写の精製において重要な役割を果たす。
本研究は,多種多様なシナリオにおける誤り訂正のための大規模言語モデル (LLM) の使用について検討する。
論文 参考訳(メタデータ) (2024-09-14T23:33:38Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。
我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。
そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文 参考訳(メタデータ) (2024-05-26T19:58:38Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。