論文の概要: UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction
- arxiv url: http://arxiv.org/abs/2401.05689v1
- Date: Thu, 11 Jan 2024 06:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:33:35.898265
- Title: UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction
- Title(参考訳): ucorrect: 自動音声認識誤り訂正のための教師なしフレームワーク
- Authors: Jiaxin Guo, Minghan Wang, Xiaosong Qiao, Daimeng Wei, Hengchao Shang,
Zongyao Li, Zhengzhe Yu, Yinglu Li, Chang Su, Min Zhang, Shimin Tao, Hao Yang
- Abstract要約: ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
- 参考スコア(独自算出の注目度): 18.97378605403447
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Error correction techniques have been used to refine the output sentences
from automatic speech recognition (ASR) models and achieve a lower word error
rate (WER). Previous works usually adopt end-to-end models and has strong
dependency on Pseudo Paired Data and Original Paired Data. But when only
pre-training on Pseudo Paired Data, previous models have negative effect on
correction. While fine-tuning on Original Paired Data, the source side data
must be transcribed by a well-trained ASR model, which takes a lot of time and
not universal. In this paper, we propose UCorrect, an unsupervised
Detector-Generator-Selector framework for ASR Error Correction. UCorrect has no
dependency on the training data mentioned before. The whole procedure is first
to detect whether the character is erroneous, then to generate some candidate
characters and finally to select the most confident one to replace the error
character. Experiments on the public AISHELL-1 dataset and WenetSpeech dataset
show the effectiveness of UCorrect for ASR error correction: 1) it achieves
significant WER reduction, achieves 6.83\% even without fine-tuning and 14.29\%
after fine-tuning; 2) it outperforms the popular NAR correction models by a
large margin with a competitive low latency; and 3) it is an universal method,
as it reduces all WERs of the ASR model with different decoding strategies and
reduces all WERs of ASR models trained on different scale datasets.
- Abstract(参考訳): 誤り訂正技術は、自動音声認識(ASR)モデルから出力文を洗練し、低い単語誤り率(WER)を達成するために用いられている。
以前の作品は通常、エンドツーエンドモデルを採用しており、擬似ペアデータとオリジナルペアデータに強く依存している。
しかし、擬似ペアデータのみを事前トレーニングする場合、以前のモデルが補正に悪影響を及ぼす。
Original Paired Dataを微調整する一方で、ソース側データは十分に訓練されたASRモデルによって転写されなければならない。
本稿では,ASR誤り訂正のためのunsupervised Detector-Generator-SelectorフレームワークであるUCorrectを提案する。
UCorrectは前述のトレーニングデータに依存しない。
まず、その文字が誤っているかを検出し、次にいくつかの候補文字を生成し、最後に最も自信のある文字を選択し、エラー文字を置き換える。
公開AISHELL-1データセットとWenetSpeechデータセットの実験は、ASR誤り訂正のためのUCorrectの有効性を示している。
1) WERの大幅な低減を実現し, 微調整を行わなくても6.83\%, 微調整後の14.29\%を達成する。
2) 一般的なnar補正モデルよりも大きなマージンで,低レイテンシの競争性が高い。
3)異なるデコード戦略でASRモデルのWERを削減し、異なるスケールのデータセットでトレーニングされたASRモデルのWERを削減できるため、普遍的な手法である。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and
Self-training of Neural Transducer [20.8850874806462]
本稿では、ラベルなし音声データを用いて教師なしの微調整と自己学習を行うための新しい手法を提案する。
微調整作業のために、ASRモデルはウォールストリートジャーナル(WSJ)、オーロラ4、およびCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
自己学習タスクでは,ウォール・ストリート・ジャーナル(WSJ)やオーロラ4(Aurora-4)の教師付きデータとCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
論文 参考訳(メタデータ) (2022-07-29T15:14:03Z) - READ: Aggregating Reconstruction Error into Out-of-distribution
Detection [5.069442437365223]
ディープニューラルネットワークは異常なデータに対する過信であることが知られている。
本稿では,READ(Reconstruction Error Aggregated Detector)を提案する。
本手法は,従来のOOD検出アルゴリズムと比較して,FPR@95TPRの平均値を最大9.8%削減する。
論文 参考訳(メタデータ) (2022-06-15T11:30:41Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。