論文の概要: PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR
Error Correction
- arxiv url: http://arxiv.org/abs/2302.05040v1
- Date: Fri, 10 Feb 2023 04:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:37:44.476801
- Title: PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR
Error Correction
- Title(参考訳): patcorrect: asr誤り訂正のための非自己回帰音素提示トランス
- Authors: Ziji Zhang, Zhehui Wang, Rajesh Kamma, Sharanya Eswaran, Narayanan
Sadagopan
- Abstract要約: 転写品質を改善するために,非自己回帰(NAR)誤り訂正手法を提案する。
提案手法は,音素エンコーダによるトランスフォーマーモデルのテキストエンコーディングを強化し,発音情報を埋め込む。
我々の手法は、様々な上流ASRシステムにおいて、英語コーパスにおける最先端のNAR誤り訂正法より一貫して優れている。
- 参考スコア(独自算出の注目度): 0.9502148118198473
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech-to-text errors made by automatic speech recognition (ASR) system
negatively impact downstream models relying on ASR transcriptions. Language
error correction models as a post-processing text editing approach have been
recently developed for refining the source sentences. However, efficient models
for correcting errors in ASR transcriptions that meet the low latency
requirements of industrial grade production systems have not been well studied.
In this work, we propose a novel non-autoregressive (NAR) error correction
approach to improve the transcription quality by reducing word error rate (WER)
and achieve robust performance across different upstream ASR systems. Our
approach augments the text encoding of the Transformer model with a phoneme
encoder that embeds pronunciation information. The representations from phoneme
encoder and text encoder are combined via multi-modal fusion before feeding
into the length tagging predictor for predicting target sequence lengths. The
joint encoders also provide inputs to the attention mechanism in the NAR
decoder. We experiment on 3 open-source ASR systems with varying speech-to-text
transcription quality and their erroneous transcriptions on 2 public English
corpus datasets. Results show that our PATCorrect (Phoneme Augmented
Transformer for ASR error Correction) consistently outperforms state-of-the-art
NAR error correction method on English corpus across different upstream ASR
systems. For example, PATCorrect achieves 11.62% WER reduction (WERR) averaged
on 3 ASR systems compared to 9.46% WERR achieved by other method using text
only modality and also achieves an inference latency comparable to other NAR
models at tens of millisecond scale, especially on GPU hardware, while still
being 4.2 - 6.7x times faster than autoregressive models on Common Voice and
LibriSpeech datasets.
- Abstract(参考訳): 自動音声認識(ASR)システムによる音声テキスト誤りは、ASR転写に依存する下流モデルに悪影響を及ぼす。
近年,テキスト編集手法としての言語誤り訂正モデルが開発されている。
しかし, 産業グレード生産システムの低レイテンシ要件を満たすasr転写の誤り訂正のための効率的なモデルについては, 十分に研究されていない。
本研究では、単語誤り率(WER)を低減し、異なる上流ASRシステム間で堅牢な性能を実現することにより、転写品質を向上させる新しい非自己回帰的(NAR)誤り訂正手法を提案する。
提案手法は,音素エンコーダによるトランスフォーマーモデルのテキストエンコーディングを強化し,発音情報を埋め込む。
音素エンコーダとテキストエンコーダからの表現は、目標シーケンス長を予測する長さタグ付け予測器に供給する前にマルチモーダル融合により結合される。
ジョイントエンコーダは、NARデコーダのアテンション機構への入力も提供する。
2つの公開英語コーパスデータセット上で,音声からテキストへの書き起こし品質の異なる3つのオープンソースasrシステムとその誤転写実験を行った。
その結果,我々のPATCorrect (Phoneme Augmented Transformer for ASR error Correction) は,様々な上流ASRシステムにおいて,英語コーパスにおける最先端のNAR誤り訂正法より一貫して優れていた。
例えば、PATCorrectは3つのASRシステムで平均11.62%のWER削減(WERR)を、テキストのみを用いた他の手法で達成した9.46%のWERRと比較して達成し、GPUハードウェアにおいて、他のNARモデルと10ミリ秒スケールで同等の遅延を達成し、Common VoiceやLibriSpeechデータセットの自己回帰モデルよりも4.2~6.7倍高速である。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Towards Contextual Spelling Correction for Customization of End-to-end
Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。
本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。
実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-02T06:00:48Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Cross-Modal ASR Post-Processing System for Error Correction and
Utterance Rejection [25.940199825317073]
音声認識のためのクロスモーダル後処理システムを提案する。
音響的特徴とテキスト的特徴を異なるモダリティから融合させる。
マルチタスク学習方式で信頼度推定器と誤り訂正器を結合する。
論文 参考訳(メタデータ) (2022-01-10T12:29:55Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。