論文の概要: An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition
- arxiv url: http://arxiv.org/abs/2101.05525v1
- Date: Thu, 14 Jan 2021 09:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 00:48:19.823638
- Title: An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition
- Title(参考訳): エンドツーエンド音声認識における単語レベルの信頼度評価
- Authors: Dan Oneata, Alexandru Caranica, Adriana Stan, Horia Cucu
- Abstract要約: エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
- 参考スコア(独自算出の注目度): 70.61280174637913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying the confidence (or conversely the uncertainty) of a prediction is
a highly desirable trait of an automatic system, as it improves the robustness
and usefulness in downstream tasks. In this paper we investigate confidence
estimation for end-to-end automatic speech recognition (ASR). Previous work has
addressed confidence measures for lattice-based ASR, while current machine
learning research mostly focuses on confidence measures for unstructured deep
learning. However, as the ASR systems are increasingly being built upon deep
end-to-end methods, there is little work that tries to develop confidence
measures in this context. We fill this gap by providing an extensive benchmark
of popular confidence methods on four well-known speech datasets. There are two
challenges we overcome in adapting existing methods: working on structured data
(sequences) and obtaining confidences at a coarser level than the predictions
(words instead of tokens). Our results suggest that a strong baseline can be
obtained by scaling the logits by a learnt temperature, followed by estimating
the confidence as the negative entropy of the predictive distribution and,
finally, sum pooling to aggregate at word level.
- Abstract(参考訳): 予測の信頼性(あるいは不確実性)の定量化は、下流タスクの堅牢性と有用性を改善するため、自動システムの非常に望ましい特性である。
本稿では,エンドツーエンド自動音声認識(ASR)の信頼性評価について検討する。
従来の研究は格子ベースのASRに対する信頼度尺度に対処してきたが、現在の機械学習研究は主に非構造化ディープラーニングに対する信頼度尺度に焦点を当てている。
しかし, ASR システムは, より深いエンド・ツー・エンドの手法で構築されつつあるため, この文脈で信頼性対策を開発するための作業はほとんどない。
このギャップを埋めるために、よく知られた4つの音声データセットに対して、一般的な信頼度手法の広範なベンチマークを提供する。
既存の手法を適用する上で克服される課題は、構造化データ(シーケンス)に取り組み、予測(トークンではなくワード)よりも粗いレベルで信頼を得る、という2つです。
以上の結果から,ロジットを学習温度でスケーリングし,予測分布の負のエントロピーとして信頼度を推定し,最後に単語レベルでの総和プールを行うことで,強いベースラインが得られることが示唆された。
関連論文リスト
- Confidence Intervals and Simultaneous Confidence Bands Based on Deep Learning [0.36832029288386137]
本手法は, 適用された最適化アルゴリズムに固有の雑音からデータの不確実性を正しく解き放つことのできる, 有効な非パラメトリックブートストラップ法である。
提案したアドホック法は、トレーニングプロセスに干渉することなく、ディープニューラルネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2024-06-20T05:51:37Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Confidence Estimation Using Unlabeled Data [12.512654188295764]
トレーニングラベルがほとんど利用できない場合, 半教師付き設定に対する最初の信頼度推定法を提案する。
トレーニングの一貫性を代理関数として使用し、信頼度推定のための一貫性ランキング損失を提案する。
画像分類とセグメンテーションの両方のタスクにおいて,本手法は信頼度推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-19T20:11:30Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Multi-Task Learning for End-to-End ASR Word and Utterance Confidence
with Deletion Prediction [20.00640459241358]
信頼性スコアは、自動音声認識(ASR)システムの下流アプリケーションに非常に有用です。
最近の研究では、ニューラルネットワークを使用して、エンドツーエンドASRの単語または発話自信スコアを学習することを提案した。
本稿では,単語信頼度,単語削除度,発話信頼度を共同学習することを提案する。
論文 参考訳(メタデータ) (2021-04-26T20:38:42Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition [31.25931550876392]
音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。
本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-22T04:02:27Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。