論文の概要: Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.03327v1
- Date: Thu, 7 Oct 2021 10:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:25:00.250561
- Title: Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のための領域外データの信頼度推定の改善
- Authors: Qiujia Li, Yu Zhang, David Qiu, Yanzhang He, Liangliang Cao, Philip C.
Woodland
- Abstract要約: 本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
- 参考スコア(独自算出の注目度): 25.595147432155642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As end-to-end automatic speech recognition (ASR) models reach promising
performance, various downstream tasks rely on good confidence estimators for
these systems. Recent research has shown that model-based confidence estimators
have a significant advantage over using the output softmax probabilities. If
the input data to the speech recogniser is from mismatched acoustic and
linguistic conditions, the ASR performance and the corresponding confidence
estimators may exhibit severe degradation. Since confidence models are often
trained on the same in-domain data as the ASR, generalising to out-of-domain
(OOD) scenarios is challenging. By keeping the ASR model untouched, this paper
proposes two approaches to improve the model-based confidence estimators on OOD
data: using pseudo transcriptions and an additional OOD language model. With an
ASR model trained on LibriSpeech, experiments show that the proposed methods
can significantly improve the confidence metrics on TED-LIUM and Switchboard
datasets while preserving in-domain performance. Furthermore, the improved
confidence estimators are better calibrated on OOD data and can provide a much
more reliable criterion for data selection.
- Abstract(参考訳): エンド・ツー・エンドの自動音声認識(asr)モデルが有望な性能に達すると、様々な下流タスクはこれらのシステムに対する高い信頼度を推定する。
近年の研究では、モデルベース信頼度推定器は出力ソフトマックス確率を用いるよりも大きなアドバンテージを持っていることが示されている。
音声認識装置への入力データが不一致の音響的および言語的条件からである場合、ASR性能と対応する信頼度推定器は深刻な劣化を示す可能性がある。
信頼モデルは、しばしばASRと同じドメイン内データで訓練されるため、ドメイン外(OOD)シナリオへの一般化は困難である。
本稿では,ASRモデルに手を加えないようにすることで,OODデータに対するモデルベース信頼度推定法を改善する2つの手法を提案する。
LibriSpeechでトレーニングされたASRモデルを用いて、提案手法はドメイン内のパフォーマンスを保ちながらTED-LiumおよびSwitchboardデータセットの信頼性指標を大幅に改善できることを示す。
さらに、改良された信頼度推定器は、oodデータに基づいてより校正され、より信頼性の高いデータ選択基準を提供できる。
関連論文リスト
- TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文 参考訳(メタデータ) (2023-12-22T11:12:45Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Uncertainty-sensitive Activity Recognition: a Reliability Benchmark and
the CARING Models [37.60817779613977]
本稿では,現代の行動認識アーキテクチャの信頼度が,正しい結果の確率を反映していることを示す最初の研究を行う。
新たなキャリブレーションネットワークを通じて、モデル出力を現実的な信頼性推定に変換する新しいアプローチを紹介します。
論文 参考訳(メタデータ) (2021-01-02T15:41:21Z) - Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition [31.25931550876392]
音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。
本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-22T04:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。