論文の概要: Hystoc: Obtaining word confidences for fusion of end-to-end ASR systems
- arxiv url: http://arxiv.org/abs/2305.12579v1
- Date: Sun, 21 May 2023 22:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:25:00.611096
- Title: Hystoc: Obtaining word confidences for fusion of end-to-end ASR systems
- Title(参考訳): Hystoc: エンドツーエンドASRシステムの融合のための単語信頼確保
- Authors: Karel Bene\v{s}, Martin Kocour, Luk\'a\v{s} Burget
- Abstract要約: Hystocは仮説レベルのスコアから単語レベルの信頼を得るための単純な方法である。
我々はHystocがASR仮説の精度とよく相関する信頼を提供することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end (e2e) systems have recently gained wide popularity in automatic
speech recognition. However, these systems do generally not provide
well-calibrated word-level confidences. In this paper, we propose Hystoc, a
simple method for obtaining word-level confidences from hypothesis-level
scores. Hystoc is an iterative alignment procedure which turns hypotheses from
an n-best output of the ASR system into a confusion network. Eventually,
word-level confidences are obtained as posterior probabilities in the
individual bins of the confusion network. We show that Hystoc provides
confidences that correlate well with the accuracy of the ASR hypothesis.
Furthermore, we show that utilizing Hystoc in fusion of multiple e2e ASR
systems increases the gains from the fusion by up to 1\,\% WER absolute on
Spanish RTVE2020 dataset. Finally, we experiment with using Hystoc for direct
fusion of n-best outputs from multiple systems, but we only achieve minor gains
when fusing very similar systems.
- Abstract(参考訳): エンドツーエンド(e2e)システムは近年,音声認識において広く普及している。
しかし、これらのシステムは一般的には十分な単語レベルの信頼度を提供していない。
本稿では,仮説レベルのスコアから単語レベルの信頼を得るための簡単な方法であるHystocを提案する。
Hystocは、ASRシステムのn-best出力から仮説を混乱ネットワークに変換する反復的なアライメント手順である。
最終的に、単語レベルの信頼度は混乱ネットワークの個々のビンの後方確率として得られる。
我々はHystocがASR仮説の精度とよく相関する信頼を提供することを示した。
さらに、複数のe2e ASRシステムの融合におけるHystocの利用は、スペインのRTVE2020データセット上で最大1\,\% WERの融合による利得を増加させることを示した。
最後に,複数のシステムからのn-best出力を直接融合するためにhystocを用いた実験を行った。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文 参考訳(メタデータ) (2023-12-22T11:12:45Z) - Fast Entropy-Based Methods of Word-Level Confidence Estimation for
End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。
提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文 参考訳(メタデータ) (2022-12-16T20:27:40Z) - Two-pass Decoding and Cross-adaptation Based System Combination of
End-to-end Conformer and Hybrid TDNN ASR Systems [61.90743116707422]
本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。
NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。
論文 参考訳(メタデータ) (2022-06-23T10:17:13Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Investigations on Speech Recognition Systems for Low-Resource Dialectal
Arabic-English Code-Switching Speech [32.426525641734344]
コードスイッチによるエジプト・アラビア英語自動音声認識(ASR)に関する研究について述べる。
DNNベースのハイブリッドモデルとTransformerベースのエンドツーエンドモデルを用いて,ASRシステムを構築した。
両システムの出力を組み合わせることで,認識を向上できることを示す。
論文 参考訳(メタデータ) (2021-08-29T17:23:30Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。