論文の概要: Learning Word-Level Confidence For Subword End-to-End ASR
- arxiv url: http://arxiv.org/abs/2103.06716v1
- Date: Thu, 11 Mar 2021 15:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:52:45.717511
- Title: Learning Word-Level Confidence For Subword End-to-End ASR
- Title(参考訳): 単語終末ASRにおける単語レベル信頼度学習
- Authors: David Qiu, Qiujia Li, Yanzhang He, Yu Zhang, Bo Li, Liangliang Cao,
Rohit Prabhavalkar, Deepti Bhatia, Wei Li, Ke Hu, Tara N. Sainath, Ian McGraw
- Abstract要約: 自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
- 参考スコア(独自算出の注目度): 48.09713798451474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of word-level confidence estimation in subword-based
end-to-end (E2E) models for automatic speech recognition (ASR). Although prior
works have proposed training auxiliary confidence models for ASR systems, they
do not extend naturally to systems that operate on word-pieces (WP) as their
vocabulary. In particular, ground truth WP correctness labels are needed for
training confidence models, but the non-unique tokenization from word to WP
causes inaccurate labels to be generated. This paper proposes and studies two
confidence models of increasing complexity to solve this problem. The final
model uses self-attention to directly learn word-level confidence without
needing subword tokenization, and exploits full context features from multiple
hypotheses to improve confidence accuracy. Experiments on Voice Search and
long-tail test sets show standard metrics (e.g., NCE, AUC, RMSE) improving
substantially. The proposed confidence module also enables a model selection
approach to combine an on-device E2E model with a hybrid model on the server to
address the rare word recognition problem for the E2E model.
- Abstract(参考訳): 自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
先行研究は、asrシステムの補助信頼モデルを訓練することを提案したが、単語ピース(wp)を語彙として運用するシステムに自然に拡張するものではない。
特に、信頼モデルのトレーニングには、根拠真理 wp の正確性ラベルが必要であるが、word から wp への非単調なトークン化は、不正確なラベルを生成する。
本稿では,この問題を解くために複雑化する2つの信頼モデルを提案し,検討する。
最終モデルは、単語のトークン化を必要とせずに単語レベルの信頼を直接学習するために自己注意を使用し、複数の仮説から完全なコンテキスト特徴を活用して、信頼度を向上させる。
音声検索とロングテールテストセットの実験では、標準メトリクス(例えば、NCE、AUC、RMSE)が大幅に改善されている。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
関連論文リスト
- Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文 参考訳(メタデータ) (2023-12-22T11:12:45Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - Multi-Task Learning for End-to-End ASR Word and Utterance Confidence
with Deletion Prediction [20.00640459241358]
信頼性スコアは、自動音声認識(ASR)システムの下流アプリケーションに非常に有用です。
最近の研究では、ニューラルネットワークを使用して、エンドツーエンドASRの単語または発話自信スコアを学習することを提案した。
本稿では,単語信頼度,単語削除度,発話信頼度を共同学習することを提案する。
論文 参考訳(メタデータ) (2021-04-26T20:38:42Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition [31.25931550876392]
音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。
本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-22T04:02:27Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。