論文の概要: Multi-Task Learning for End-to-End ASR Word and Utterance Confidence
with Deletion Prediction
- arxiv url: http://arxiv.org/abs/2104.12870v1
- Date: Mon, 26 Apr 2021 20:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:36:24.157050
- Title: Multi-Task Learning for End-to-End ASR Word and Utterance Confidence
with Deletion Prediction
- Title(参考訳): エンド・ツー・エンドASR単語のマルチタスク学習と削除予測による発話信頼度
- Authors: David Qiu, Yanzhang He, Qiujia Li, Yu Zhang, Liangliang Cao, Ian
McGraw
- Abstract要約: 信頼性スコアは、自動音声認識(ASR)システムの下流アプリケーションに非常に有用です。
最近の研究では、ニューラルネットワークを使用して、エンドツーエンドASRの単語または発話自信スコアを学習することを提案した。
本稿では,単語信頼度,単語削除度,発話信頼度を共同学習することを提案する。
- 参考スコア(独自算出の注目度): 20.00640459241358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Confidence scores are very useful for downstream applications of automatic
speech recognition (ASR) systems. Recent works have proposed using neural
networks to learn word or utterance confidence scores for end-to-end ASR. In
those studies, word confidence by itself does not model deletions, and
utterance confidence does not take advantage of word-level training signals.
This paper proposes to jointly learn word confidence, word deletion, and
utterance confidence. Empirical results show that multi-task learning with all
three objectives improves confidence metrics (NCE, AUC, RMSE) without the need
for increasing the model size of the confidence estimation module. Using the
utterance-level confidence for rescoring also decreases the word error rates on
Google's Voice Search and Long-tail Maps datasets by 3-5% relative, without
needing a dedicated neural rescorer.
- Abstract(参考訳): 信頼スコアは、自動音声認識(ASR)システムの下流での応用に非常に有用である。
近年の研究では、ニューラルネットワークを用いて、エンドツーエンドASRの単語または発話信頼度スコアを学習する手法が提案されている。
これらの研究では、単語の信頼度自体が削除をモデル化せず、発話の信頼度は単語レベルの訓練信号を利用しない。
本稿では,単語信頼度,単語削除度,発話信頼度を共同で学習することを提案する。
実験の結果,3つの目的を持つマルチタスク学習は,信頼度推定モジュールのモデルサイズを増大させることなく,信頼度指標(NCE, AUC, RMSE)を改善することが示された。
また、音声レベルの信頼度を使って、専用のニューラルリスコラを必要とせずに、GoogleのVoice SearchとLong-tail Mapデータセットの単語エラー率を3~5%削減する。
関連論文リスト
- Learning to Route with Confidence Tokens [43.63392143501436]
大規模言語モデルが回答の信頼性を確実に示すことができる範囲について検討する。
本稿では,LLMの信頼性を確実に表現するための軽量トレーニング戦略であるSelf-REFを提案する。
信頼度を言語化したり、トークンの確率を調べるといった従来の手法と比較して、信頼度トークンは下流のルーティングや拒否学習タスクにおいて著しく改善されていることを実証的に示す。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Improving Confidence Estimation on Out-of-Domain Data for End-to-End
Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。
実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-07T10:44:27Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition [31.25931550876392]
音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。
本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-22T04:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。