論文の概要: Accurate and Reliable Confidence Estimation Based on Non-Autoregressive
End-to-End Speech Recognition System
- arxiv url: http://arxiv.org/abs/2305.10680v2
- Date: Thu, 25 May 2023 02:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:49:34.646448
- Title: Accurate and Reliable Confidence Estimation Based on Non-Autoregressive
End-to-End Speech Recognition System
- Title(参考訳): 非自己回帰型エンドツーエンド音声認識システムによる信頼度推定
- Authors: Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan
- Abstract要約: 従来のエンドツーエンド(E2E)ベースの信頼度推定モデル(CEM)は、入力書き起こしと等しい長さのスコアシーケンスを予測する。
本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するために,CIF-Aligned confidence Estimation Model (CA-CEM)を提案する。
- 参考スコア(独自算出の注目度): 42.569506907182706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating confidence scores for recognition results is a classic task in ASR
field and of vital importance for kinds of downstream tasks and training
strategies. Previous end-to-end~(E2E) based confidence estimation models (CEM)
predict score sequences of equal length with input transcriptions, leading to
unreliable estimation when deletion and insertion errors occur. In this paper
we proposed CIF-Aligned confidence estimation model (CA-CEM) to achieve
accurate and reliable confidence estimation based on novel non-autoregressive
E2E ASR model - Paraformer. CA-CEM utilizes the modeling character of
continuous integrate-and-fire (CIF) mechanism to generate token-synchronous
acoustic embedding, which solves the estimation failure issue above. We measure
the quality of estimation with AUC and RMSE in token level and ECE-U - a
proposed metrics in utterance level. CA-CEM gains 24% and 19% relative
reduction on ECE-U and also better AUC and RMSE on two test sets. Furthermore,
we conduct analysis to explore the potential of CEM for different ASR related
usage.
- Abstract(参考訳): 認識結果の信頼度を推定することは、ASR分野における古典的な課題であり、下流のタスクやトレーニング戦略にとって重要な課題である。
前回のエンドツーエンド~(e2e)ベースの信頼度推定モデル(cem)は、入力された書き起こしと等しい長さのスコアシーケンスを予測する。
本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するためのCIF-Aligned confidence Estimation Model (CA-CEM) を提案する。
CA-CEMは、CIF(Continuous Integration-and-fire)メカニズムのモデリング特性を利用してトークン同期音響埋め込みを生成し、上記の推定失敗問題を解く。
本稿では,トークンレベルにおけるAUCとRMSEによる推定精度と,発話レベルにおけるECE-Uの指標を提案する。
CA-CEMはECE-UとAUCとRMSEの2つのテストセットで24%と19%の相対的な減少率を得た。
さらに、我々は、異なるASR関連用途におけるCEMの可能性を探るために分析を行う。
関連論文リスト
- TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文 参考訳(メタデータ) (2023-12-22T11:12:45Z) - Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with
Differentiable Expected Calibration Error [50.86671887712424]
ドメイン適応型セマンティックセグメンテーションの流行は、ソースドメインデータの漏洩に関する懸念を引き起こしている。
ソースデータの要求を回避するため、ソースフリーなドメイン適応が実現可能なソリューションとして登場した。
校正誘導型ソースフリーなドメイン適応型セマンティックセマンティックセマンティクスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:28:34Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Uncertainty-sensitive Activity Recognition: a Reliability Benchmark and
the CARING Models [37.60817779613977]
本稿では,現代の行動認識アーキテクチャの信頼度が,正しい結果の確率を反映していることを示す最初の研究を行う。
新たなキャリブレーションネットワークを通じて、モデル出力を現実的な信頼性推定に変換する新しいアプローチを紹介します。
論文 参考訳(メタデータ) (2021-01-02T15:41:21Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。