論文の概要: TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR
- arxiv url: http://arxiv.org/abs/2401.03251v1
- Date: Sat, 6 Jan 2024 16:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:37:42.321931
- Title: TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR
- Title(参考訳): TeLeS: エンド・ツー・エンドASRにおける信頼度推定のための時間レキセメ類似度スコア
- Authors: Nagarathna Ravi, Thishyan Raj T and Vipul Arora
- Abstract要約: クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
- 参考スコア(独自算出の注目度): 1.8477401359673709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confidence estimation of predictions from an End-to-End (E2E) Automatic
Speech Recognition (ASR) model benefits ASR's downstream and upstream tasks.
Class-probability-based confidence scores do not accurately represent the
quality of overconfident ASR predictions. An ancillary Confidence Estimation
Model (CEM) calibrates the predictions. State-of-the-art (SOTA) solutions use
binary target scores for CEM training. However, the binary labels do not reveal
the granular information of predicted words, such as temporal alignment between
reference and hypothesis and whether the predicted word is entirely incorrect
or contains spelling errors. Addressing this issue, we propose a novel
Temporal-Lexeme Similarity (TeLeS) confidence score to train CEM. To address
the data imbalance of target scores while training CEM, we use shrinkage loss
to focus on hard-to-learn data points and minimise the impact of easily learned
data points. We conduct experiments with ASR models trained in three languages,
namely Hindi, Tamil, and Kannada, with varying training data sizes. Experiments
show that TeLeS generalises well across domains. To demonstrate the
applicability of the proposed method, we formulate a TeLeS-based Acquisition
(TeLeS-A) function for sampling uncertainty in active learning. We observe a
significant reduction in the Word Error Rate (WER) as compared to SOTA methods.
- Abstract(参考訳): E2E(End-to-End)モデルからの信頼度推定は、ASRの下流および上流タスクに有効である。
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を表すものではない。
CEM(Acillary Confidence Estimation Model)は、予測を校正する。
最先端(SOTA)ソリューションは、CEMトレーニングにバイナリターゲットスコアを使用する。
しかし、二項ラベルは、参照と仮説の間の時間的アライメントや、予測された単語が完全に誤りかスペルエラーを含むかといった、予測された単語の粒度情報を明らかにしない。
この問題に対処するため,CEMのトレーニングを行うための新しいTeLeS(Temporal-Lexeme similarity)スコアを提案する。
cemのトレーニング中に目標スコアのデータ不均衡に対処するために,縮小損失を用いて,学習し易いデータポイントの影響を最小限に抑える。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて実験を行う。
実験により、TeLeSはドメイン間でよく一般化されることが示された。
提案手法の適用性を示すため,能動学習における不確実性を抽出するためのTeLeS-A関数を定式化する。
sota法と比較して,単語誤り率 (wer) が有意に減少した。
関連論文リスト
- Towards Robust and Interpretable EMG-based Hand Gesture Recognition using Deep Metric Meta Learning [37.21211404608413]
本稿では,意味的かつ解釈可能な表現の作成を監督するために,EMG PRにおける深層メートル法メタラーニングへのシフトを提案する。
我々は、不正確な決定をよりよく拒否する頑健なクラス近接性に基づく信頼度推定器を導出する。
論文 参考訳(メタデータ) (2024-04-17T23:37:50Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文 参考訳(メタデータ) (2023-12-22T11:12:45Z) - Accurate and Reliable Confidence Estimation Based on Non-Autoregressive
End-to-End Speech Recognition System [42.569506907182706]
従来のエンドツーエンド(E2E)ベースの信頼度推定モデル(CEM)は、入力書き起こしと等しい長さのスコアシーケンスを予測する。
本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するために,CIF-Aligned confidence Estimation Model (CA-CEM)を提案する。
論文 参考訳(メタデータ) (2023-05-18T03:34:50Z) - EvCenterNet: Uncertainty Estimation for Object Detection using
Evidential Learning [26.535329379980094]
EvCenterNetは、新しい不確実性を認識した2Dオブジェクト検出フレームワークである。
分類と回帰の不確実性の両方を推定するために、顕在的学習を用いる。
我々は、KITTIデータセット上でモデルをトレーニングし、配布外のデータセットに挑戦して評価する。
論文 参考訳(メタデータ) (2023-03-06T11:07:11Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。
本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-02-13T07:31:16Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。