論文の概要: Word Error Rate Estimation Without ASR Output: e-WER2
- arxiv url: http://arxiv.org/abs/2008.03403v1
- Date: Sat, 8 Aug 2020 00:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:14:50.008235
- Title: Word Error Rate Estimation Without ASR Output: e-WER2
- Title(参考訳): ASR出力のない単語誤り率推定:e-WER2
- Authors: Ahmed Ali and Steve Renals
- Abstract要約: 音声認識システムの単語誤り率(WER)を推定するために,マルチストリームのエンドツーエンドアーキテクチャを用いる。
内部音声デコーダ機能(グラスボックス)、音声デコーダ機能(ブラックボックス)のないシステム、およびASRシステム(ノーボックス)にアクセスできないシステムに対する結果について報告する。
文ごとの WER を考えると,本システムは基準評価とピアソンの0.56の相関と,1,400 文間でのルート平均二乗誤差(RMSE)の0.24の相関を達成できる。
- 参考スコア(独自算出の注目度): 36.43741370454534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring the performance of automatic speech recognition (ASR) systems
requires manually transcribed data in order to compute the word error rate
(WER), which is often time-consuming and expensive. In this paper, we continue
our effort in estimating WER using acoustic, lexical and phonotactic features.
Our novel approach to estimate the WER uses a multistream end-to-end
architecture. We report results for systems using internal speech decoder
features (glass-box), systems without speech decoder features (black-box), and
for systems without having access to the ASR system (no-box). The no-box system
learns joint acoustic-lexical representation from phoneme recognition results
along with MFCC acoustic features to estimate WER. Considering WER per
sentence, our no-box system achieves 0.56 Pearson correlation with the
reference evaluation and 0.24 root mean square error (RMSE) across 1,400
sentences. The estimated overall WER by e-WER2 is 30.9% for a three hours test
set, while the WER computed using the reference transcriptions was 28.5%.
- Abstract(参考訳): 自動音声認識(ASR)システムの性能を測定するには、しばしば時間とコストのかかる単語誤り率(WER)を計算するために手書きの書き起こしデータが必要となる。
本稿では,音響的,語彙的,系統的特徴を用いたwerの推定を継続する。
WERを推定するための新しいアプローチは、マルチストリームのエンドツーエンドアーキテクチャを使用する。
内部の音声デコーダ機能(グラスボックス)、音声デコーダ機能(ブラックボックス)のないシステム、およびASRシステム(ノーボックス)にアクセスできないシステムに対する結果について報告する。
no-box システムは,音素認識結果と MFCC 音響特徴を併用し,WER を推定する。
文ごとのWERを考慮すると、1,400文にわたる基準評価と0.56ピアソン相関と0.24ルート平均二乗誤差(RMSE)が得られる。
e-WER2によるWER全体の推定は3時間テストセットで30.9%、基準文字起こしを用いて計算されたWERは28.5%である。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Cross-Modal ASR Post-Processing System for Error Correction and
Utterance Rejection [25.940199825317073]
音声認識のためのクロスモーダル後処理システムを提案する。
音響的特徴とテキスト的特徴を異なるモダリティから融合させる。
マルチタスク学習方式で信頼度推定器と誤り訂正器を結合する。
論文 参考訳(メタデータ) (2022-01-10T12:29:55Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。