論文の概要: Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.11428v2
- Date: Fri, 23 Oct 2020 18:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:56:46.800941
- Title: Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition
- Title(参考訳): 音声認識のための注意型系列列列モデルの信頼度推定
- Authors: Qiujia Li, David Qiu, Yu Zhang, Bo Li, Yanzhang He, Philip C.
Woodland, Liangliang Cao, Trevor Strohman
- Abstract要約: 音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。
本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 31.25931550876392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For various speech-related tasks, confidence scores from a speech recogniser
are a useful measure to assess the quality of transcriptions. In traditional
hidden Markov model-based automatic speech recognition (ASR) systems,
confidence scores can be reliably obtained from word posteriors in decoding
lattices. However, for an ASR system with an auto-regressive decoder, such as
an attention-based sequence-to-sequence model, computing word posteriors is
difficult. An obvious alternative is to use the decoder softmax probability as
the model confidence. In this paper, we first examine how some commonly used
regularisation methods influence the softmax-based confidence scores and study
the overconfident behaviour of end-to-end models. Then we propose a lightweight
and effective approach named confidence estimation module (CEM) on top of an
existing end-to-end ASR model. Experiments on LibriSpeech show that CEM can
mitigate the overconfidence problem and can produce more reliable confidence
scores with and without shallow fusion of a language model. Further analysis
shows that CEM generalises well to speech from a moderately mismatched domain
and can potentially improve downstream tasks such as semi-supervised learning.
- Abstract(参考訳): 音声関連タスクにおいて、音声認識器からの信頼度スコアは、転写品質を評価する上で有用な尺度である。
従来のマルコフモデルに基づく自動音声認識(ASR)システムでは、デコード格子における単語後部から信頼性スコアを確実に得ることができる。
しかし、アテンションベースシーケンス・ツー・シーケンスモデルのような自動回帰デコーダを持つASRシステムでは、ワード後処理の計算が困難である。
明らかな代替手段は、モデルの信頼性としてデコーダソフトマックス確率を使用することである。
本稿では,一般的な正規化手法がソフトマックスに基づく信頼度にどのように影響するかを考察し,エンド・ツー・エンドモデルの過信行動について検討する。
そこで我々は,既存のエンドツーエンドASRモデルに基づいて,信頼度推定モジュール(CEM)という軽量で効果的な手法を提案する。
LibriSpeechの実験では、CEMは過信問題を軽減し、言語モデルの浅い融合なしにより信頼性の高い信頼性スコアを生成することができる。
さらなる分析により、CEMは適度にミスマッチしたドメインからの音声を一般化し、半教師付き学習のような下流のタスクを改善する可能性が示唆された。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - Multi-Task Learning for End-to-End ASR Word and Utterance Confidence
with Deletion Prediction [20.00640459241358]
信頼性スコアは、自動音声認識(ASR)システムの下流アプリケーションに非常に有用です。
最近の研究では、ニューラルネットワークを使用して、エンドツーエンドASRの単語または発話自信スコアを学習することを提案した。
本稿では,単語信頼度,単語削除度,発話信頼度を共同学習することを提案する。
論文 参考訳(メタデータ) (2021-04-26T20:38:42Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。