論文の概要: Word-level confidence estimation for RNN transducers
- arxiv url: http://arxiv.org/abs/2110.15222v1
- Date: Tue, 28 Sep 2021 18:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 09:48:10.758501
- Title: Word-level confidence estimation for RNN transducers
- Title(参考訳): RNNトランスデューサの単語レベル信頼度推定
- Authors: Mingqiu Wang, Hagen Soltau, Laurent El Shafey, Izhak Shafran
- Abstract要約: 本稿では、リカレント・ネットワーク・トランスデューサ(RNN-T)を用いた音声認識(ASR)システムに適した軽量神経信頼モデルを提案する。
他の既存手法と比較して,本モデルは, (a) 認識された単語に関連付けられた時間情報を用いて計算複雑性を低減し, (b) サブワードと単語列をマッピングするためのシンプルでエレガントなトリックを利用する。
- 参考スコア(独自算出の注目度): 7.12355127219356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confidence estimate is an often requested feature in applications such as
medical transcription where errors can impact patient care and the confidence
estimate could be used to alert medical professionals to verify potential
errors in recognition.
In this paper, we present a lightweight neural confidence model tailored for
Automatic Speech Recognition (ASR) system with Recurrent Neural Network
Transducers (RNN-T). Compared to other existing approaches, our model utilizes:
(a) the time information associated with recognized words, which reduces the
computational complexity, and (b) a simple and elegant trick for mapping
between sub-word and word sequences. The mapping addresses the non-unique
tokenization and token deletion problems while amplifying differences between
confusable words. Through extensive empirical evaluations on two different
long-form test sets, we demonstrate that the model achieves a performance of
0.4 Normalized Cross Entropy (NCE) and 0.05 Expected Calibration Error (ECE).
It is robust across different ASR configurations, including target types
(graphemes vs. morphemes), traffic conditions (streaming vs. non-streaming),
and encoder types. We further discuss the importance of evaluation metrics to
reflect practical applications and highlight the need for further work in
improving Area Under the Curve (AUC) for Negative Precision Rate (NPV) and True
Negative Rate (TNR).
- Abstract(参考訳): 信頼度推定は、エラーが患者のケアに影響を与え、信頼度推定が医療専門家に認識の潜在的な誤りを知らせるために使われる、医学的書き起こしのようなアプリケーションでしばしば要求される機能である。
本稿では,recurrent neural network transducers (rnn-t) を用いた自動音声認識 (asr) システムのための軽量ニューラルネットワーク信頼度モデルを提案する。
他の既存手法と比較して、我々のモデルは以下の通りである。
(a)認識語に関連する時間情報であって、計算の複雑さを減少させるもの
(b)サブワードとワードシーケンスをマッピングするためのシンプルでエレガントなトリック。
このマッピングは、不統一なトークン化とトークン削除の問題に対処し、共用可能な単語間の差異を増幅する。
2つの異なる長形テストセットに対する広範な実験的な評価を通じて、このモデルが正規化クロスエントロピー(NCE)と0.05期待校正誤差(ECE)の性能を達成することを示した。
ターゲットタイプ(graphems vs. morphemes)、トラフィック条件(streaming vs. non-streaming)、エンコーダタイプなど、さまざまなasr構成で堅牢である。
さらに,実用的応用を反映した評価指標の重要性を考察し,負精度率 (npv) と真負率 (tnr) に対する曲線下領域改善(auc)におけるさらなる作業の必要性を強調する。
関連論文リスト
- PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。
PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Interpretable Anomaly Detection in Cellular Networks by Learning
Concepts in Variational Autoencoders [8.612111588129167]
本稿では,セルラーネットワーク内の異常を解釈可能な方法で検出する上での課題について述べる。
本稿では,データセット内のキーパフォーマンス指標(KPI)ごとに潜在空間の解釈可能な表現を学習する可変オートエンコーダ(VAE)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T05:50:17Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - BayesNetCNN: incorporating uncertainty in neural networks for
image-based classification tasks [0.29005223064604074]
本稿では,標準的なニューラルネットワークをベイズニューラルネットワークに変換する手法を提案する。
本研究では,各前方パスにおいて,元のものと類似した異なるネットワークをサンプリングすることにより,予測のばらつきを推定する。
我々は、アルツハイマー病患者の脳画像の大きなコホートを用いて、我々のモデルを検証した。
論文 参考訳(メタデータ) (2022-09-27T01:07:19Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Interpretable Additive Recurrent Neural Networks For Multivariate
Clinical Time Series [4.125698836261585]
本稿では,モデル内の変数間の関係を加法的に強制することで,モデルの複雑性と精度のバランスをとるInterpretable-RNN(I-RNN)を提案する。
I-RNNは、時間内に不均一にサンプリングされ、非同期に取得され、データが欠落している臨床時系列の特徴を特に捉えている。
本研究は,院内死亡率予測のためのPhysoronet 2012 ChallengeデータセットのI-RNNモデルと,集中治療室における血行動態の介入を予測するリアルな臨床診断支援タスクについて評価する。
論文 参考訳(メタデータ) (2021-09-15T22:30:19Z) - Detecting Misclassification Errors in Neural Networks with a Gaussian
Process Model [20.948038514886377]
本稿では,誤分類誤りを検出するための定量的な尺度を新たに作成する枠組みを提案する。
このフレームワークREDは、ベース分類器の上にエラー検出器を構築し、ガウス過程を用いて検出スコアの不確かさを推定する。
論文 参考訳(メタデータ) (2020-10-05T15:01:30Z) - Collaborative Boundary-aware Context Encoding Networks for Error Map
Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。
具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。
AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文 参考訳(メタデータ) (2020-06-25T12:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。