論文の概要: Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2212.08703v1
- Date: Fri, 16 Dec 2022 20:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:55:45.440799
- Title: Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition
- Title(参考訳): エンドツーエンド音声認識における単語レベル信頼度推定の高速エントロピー法
- Authors: Aleksandr Laptev and Boris Ginsburg
- Abstract要約: 本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
- 参考スコア(独自算出の注目度): 86.21889574126878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a class of new fast non-trainable entropy-based
confidence estimation methods for automatic speech recognition. We show how
per-frame entropy values can be normalized and aggregated to obtain a
confidence measure per unit and per word for Connectionist Temporal
Classification (CTC) and Recurrent Neural Network Transducer (RNN-T) models.
Proposed methods have similar computational complexity to the traditional
method based on the maximum per-frame probability, but they are more
adjustable, have a wider effective threshold range, and better push apart the
confidence distributions of correct and incorrect words. We evaluate the
proposed confidence measures on LibriSpeech test sets, and show that they are
up to 2 and 4 times better than confidence estimation based on the maximum
per-frame probability at detecting incorrect words for Conformer-CTC and
Conformer-RNN-T models, respectively.
- Abstract(参考訳): 本稿では,自動音声認識のための新しい高速非学習エントロピーに基づく信頼度推定法を提案する。
本稿では,フレーム単位のエントロピー値の正規化と集約を行い,コネクショニスト時間分類(ctc)とrnn-tモデル(recurrent neural network transducer)に対して,単位単位とワード単位の信頼度尺度を得る方法を示す。
提案手法はフレーム毎の最大確率に基づく従来の手法と同様の計算複雑性を持つが、より調整可能であり、より効果的なしきい値範囲を持ち、正しい単語と間違った単語の信頼度分布をより良く押し離すことができる。
提案手法をlibrispeechテストセット上で評価し,conformer-ctcおよびconformer-rnn-tモデルの誤り語検出における最大フレーム当たり確率に基づいて,最大2倍および4倍の信頼性推定精度を示す。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - High Confidence Level Inference is Almost Free using Parallel Stochastic
Optimization [16.38026811561888]
本稿では,高効率計算と高速収束による信頼区間構築に焦点をあてた新しい推論手法を提案する。
提案手法は,推定値の標準的な更新を超える最小限の計算量とメモリを必要とするため,推論処理はほとんどコストがかからない。
論文 参考訳(メタデータ) (2024-01-17T17:11:45Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Confidence Estimation via Auxiliary Models [47.08749569008467]
モデル信頼のための新しいターゲット基準、すなわち真のクラス確率(TCP)を紹介します。
標準最大クラス確率 (MCP) よりも TCP が信頼度推定に優れた特性を提供することを示す。
論文 参考訳(メタデータ) (2020-12-11T17:21:12Z) - Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition [31.25931550876392]
音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。
本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-22T04:02:27Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。