論文の概要: BLSTM-Based Confidence Estimation for End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2312.14609v1
- Date: Fri, 22 Dec 2023 11:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:15:28.298627
- Title: BLSTM-Based Confidence Estimation for End-to-End Speech Recognition
- Title(参考訳): BLSTMを用いたエンドツーエンド音声認識のための信頼度推定
- Authors: Atsunori Ogawa, Naohiro Tawara, Takatomo Kano, Marc Delcroix
- Abstract要約: 信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
- 参考スコア(独自算出の注目度): 41.423717224691046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Confidence estimation, in which we estimate the reliability of each
recognized token (e.g., word, sub-word, and character) in automatic speech
recognition (ASR) hypotheses and detect incorrectly recognized tokens, is an
important function for developing ASR applications. In this study, we perform
confidence estimation for end-to-end (E2E) ASR hypotheses. Recent E2E ASR
systems show high performance (e.g., around 5% token error rates) for various
ASR tasks. In such situations, confidence estimation becomes difficult since we
need to detect infrequent incorrect tokens from mostly correct token sequences.
To tackle this imbalanced dataset problem, we employ a bidirectional long
short-term memory (BLSTM)-based model as a strong binary-class
(correct/incorrect) sequence labeler that is trained with a class balancing
objective. We experimentally confirmed that, by utilizing several types of ASR
decoding scores as its auxiliary features, the model steadily shows high
confidence estimation performance under highly imbalanced settings. We also
confirmed that the BLSTM-based model outperforms Transformer-based confidence
estimation models, which greatly underestimate incorrect tokens.
- Abstract(参考訳): 自動音声認識(ASR)における各認識トークン(単語,サブワード,文字など)の信頼度を推定し,誤認識トークンを検知する信頼度推定は,ASRアプリケーションを開発する上で重要な機能である。
本研究では,エンド・ツー・エンド(E2E)ASR仮説に対する信頼度推定を行う。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
このような状況では、ほとんど正しいトークンシーケンスから頻繁な不正トークンを検出する必要があるため、信頼度推定が困難になる。
この不均衡データセット問題に対処するために、クラスバランスの目的を訓練した強力なバイナリクラス(誤り/誤)シーケンスラベスターとして、双方向長短期メモリ(BLSTM)ベースのモデルを用いる。
実験により,複数の種類のASR復号化スコアを補助的特徴として利用することにより,高不均衡条件下での信頼性推定性能が着実に向上することが確認された。
また,BLSTMに基づくモデルの方がTransformerベースの信頼度推定モデルより優れていることを確認した。
関連論文リスト
- Energy Score-based Pseudo-Label Filtering and Adaptive Loss for Imbalanced Semi-supervised SAR target recognition [1.2035771704626825]
既存の半教師付きSAR ATRアルゴリズムは、クラス不均衡の場合、認識精度が低い。
この研究は、動的エネルギースコアと適応損失を用いた非平衡半教師付きSAR目標認識手法を提供する。
論文 参考訳(メタデータ) (2024-11-06T14:45:16Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Accurate and Reliable Confidence Estimation Based on Non-Autoregressive
End-to-End Speech Recognition System [42.569506907182706]
従来のエンドツーエンド(E2E)ベースの信頼度推定モデル(CEM)は、入力書き起こしと等しい長さのスコアシーケンスを予測する。
本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するために,CIF-Aligned confidence Estimation Model (CA-CEM)を提案する。
論文 参考訳(メタデータ) (2023-05-18T03:34:50Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。