論文の概要: ASR Rescoring and Confidence Estimation with ELECTRA
- arxiv url: http://arxiv.org/abs/2110.01857v1
- Date: Tue, 5 Oct 2021 07:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:09:54.576125
- Title: ASR Rescoring and Confidence Estimation with ELECTRA
- Title(参考訳): ELECTRAを用いたASR再構成と信頼度推定
- Authors: Hayato Futami, Hirofumi Inaguma, Masato Mimura, Shinsuke Sakai,
Tatsuya Kawahara
- Abstract要約: ELECTRAを用いてエラーを直接検出するASR再構成手法を提案する。
ELECTRAは、各単語がBERTに置換されるか否かを予測するために事前訓練される。
P-ELECTRAの事前学習では、各単語は音声から単語への変換モデルに置き換えられる。
- 参考スコア(独自算出の注目度): 45.88492579786677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In automatic speech recognition (ASR) rescoring, the hypothesis with the
fewest errors should be selected from the n-best list using a language model
(LM). However, LMs are usually trained to maximize the likelihood of correct
word sequences, not to detect ASR errors. We propose an ASR rescoring method
for directly detecting errors with ELECTRA, which is originally a pre-training
method for NLP tasks. ELECTRA is pre-trained to predict whether each word is
replaced by BERT or not, which can simulate ASR error detection on large text
corpora. To make this pre-training closer to ASR error detection, we further
propose an extended version of ELECTRA called phone-attentive ELECTRA
(P-ELECTRA). In the pre-training of P-ELECTRA, each word is replaced by a
phone-to-word conversion model, which leverages phone information to generate
acoustically similar words. Since our rescoring method is optimized for
detecting errors, it can also be used for word-level confidence estimation.
Experimental evaluations on the Librispeech and TED-LIUM2 corpora show that our
rescoring method with ELECTRA is competitive with conventional rescoring
methods with faster inference. ELECTRA also performs better in confidence
estimation than BERT because it can learn to detect inappropriate words not
only in fine-tuning but also in pre-training.
- Abstract(参考訳): 自動音声認識(ASR)では,最少誤差の仮説を言語モデル(LM)を用いてn-bestリストから選択する必要がある。
しかし、LMは通常、正しい単語列の確率を最大化するために訓練され、ASRエラーを検出できない。
NLPタスクの事前学習手法であるELECTRAを用いてエラーを直接検出するASR再構成手法を提案する。
ELECTRAは、大きなテキストコーパス上でのASRエラー検出をシミュレート可能な、各単語がBERTに置き換えられたかどうかを予測するために事前訓練される。
さらに,この事前学習をASRエラー検出に近づけるために,電話注意型ELECTRA (P-ELECTRA) と呼ばれるELECTRAの拡張版を提案する。
p-electraの事前学習では、各単語は電話から単語への変換モデルに置き換えられ、電話情報を利用して音響的に類似した単語を生成する。
本手法は誤り検出に最適化されているため,単語レベルの信頼度推定にも利用できる。
Librispeech および TED-Lium2 コーパスを用いた実験により, ELECTRA を用いた再構成法は, より高速な推論法と競合することが示された。
ELECTRAは、微調整だけでなく事前学習においても不適切な単語を検出することができるため、BERTよりも信頼性が向上する。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文 参考訳(メタデータ) (2024-01-11T06:30:07Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Pre-Training Transformers as Energy-Based Cloze Models [95.04748595976811]
テキストによる表現学習のためのエネルギーベースクローゼモデルであるElectricを導入する。
electricはマスキングを使用しず、コンテキスト内で発生したトークンに対して完全な分散を出力しない。
ノイズコントラスト推定に基づくアルゴリズムを用いて電気を訓練し、この学習目標が最近提案されたELECTRAプリトレーニング方法と密接に関連しているかを解明する。
論文 参考訳(メタデータ) (2020-12-15T19:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。