Fugu-MT 論文翻訳(概要): PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction

論文の概要: PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction

arxiv url: http://arxiv.org/abs/2302.05040v2
Date: Wed, 21 Jun 2023 17:44:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 17:44:27.711308
Title: PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction
Title（参考訳）: patcorrect: asr誤り訂正のための非自己回帰音素提示トランス
Authors: Ziji Zhang, Zhehui Wang, Rajesh Kamma, Sharanya Eswaran, Narayanan Sadagopan
Abstract要約: 単語誤り率(WER)を低減する新しい非自己回帰的(NAR)アプローチであるPATCorrectを提案する。 PATCorrectは、様々な上流ASRシステムにおいて、英語コーパスにおける最先端のNAR法より一貫して優れていることを示す。
参考スコア（独自算出の注目度）: 0.9502148118198473
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Speech-to-text errors made by automatic speech recognition (ASR) systems negatively impact downstream models. Error correction models as a post-processing text editing method have been recently developed for refining the ASR outputs. However, efficient models that meet the low latency requirements of industrial grade production systems have not been well studied. We propose PATCorrect-a novel non-autoregressive (NAR) approach based on multi-modal fusion leveraging representations from both text and phoneme modalities, to reduce word error rate (WER) and perform robustly with varying input transcription quality. We demonstrate that PATCorrect consistently outperforms state-of-the-art NAR method on English corpus across different upstream ASR systems, with an overall 11.62% WER reduction (WERR) compared to 9.46% WERR achieved by other methods using text only modality. Besides, its inference latency is at tens of milliseconds, making it ideal for systems with low latency requirements.
Abstract（参考訳）: 自動音声認識(ASR)システムによる音声テキスト誤りは下流モデルに悪影響を及ぼす。後処理テキスト編集手法としての誤り訂正モデルは、最近、ASR出力を精査するために開発されている。しかし、工業用グレード生産システムの低レイテンシ要件を満たす効率的なモデルは十分に研究されていない。テキストと音素の両方のモダリティの表現を利用したマルチモーダル融合に基づくPATCorrect-a novel non-autoregressive (NAR)アプローチを提案する。我々は、PATCorrectが、異なる上流ASRシステムにまたがる英語コーパスにおける最先端のNAR法を一貫して上回り、合計11.62%のWER削減(WERR)を、テキストのみを用いた他の手法による9.46%のWERRと比較した。さらに、その推論レイテンシは数ミリ秒で、低レイテンシ要件のシステムには理想的です。

関連論文リスト

Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文参考訳（メタデータ） (2023-10-10T09:04:33Z)
Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文参考訳（メタデータ） (2023-09-19T20:55:58Z)
Factual Error Correction for Abstractive Summaries Using Entity Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。 RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文参考訳（メタデータ） (2022-04-18T11:35:02Z)
Towards Contextual Spelling Correction for Customization of End-to-end Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文参考訳（メタデータ） (2022-03-02T06:00:48Z)
Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文参考訳（メタデータ） (2022-02-02T17:32:59Z)
Cross-Modal ASR Post-Processing System for Error Correction and Utterance Rejection [25.940199825317073]
音声認識のためのクロスモーダル後処理システムを提案する。音響的特徴とテキスト的特徴を異なるモダリティから融合させる。マルチタスク学習方式で信頼度推定器と誤り訂正器を結合する。
論文参考訳（メタデータ） (2022-01-10T12:29:55Z)
FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。 fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文参考訳（メタデータ） (2021-05-09T05:35:36Z)
An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文参考訳（メタデータ） (2021-03-25T05:15:43Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。