論文の概要: Fast Word Error Rate Estimation Using Self-Supervised Representations
For Speech And Text
- arxiv url: http://arxiv.org/abs/2310.08225v1
- Date: Thu, 12 Oct 2023 11:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 11:01:06.842428
- Title: Fast Word Error Rate Estimation Using Self-Supervised Representations
For Speech And Text
- Title(参考訳): 自己教師付き表現を用いた音声とテキストの高速単語誤り率推定
- Authors: Chanho Park, Chengsong Lu, Mingjie Chen, Thomas Hain
- Abstract要約: 音声認識の品質は一般に単語誤り率(WER)によって測定される
WER推定は、音声の発声と書き起こしを与えられたASRシステムのWERを予測するタスクである。
本稿では,自己教師付き学習表現(SSLR)を用いた高速WER推定器(Fe-WER)を提案する。
- 参考スコア(独自算出の注目度): 23.25173244408922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of automatic speech recognition (ASR) is typically measured by
word error rate (WER). WER estimation is a task aiming to predict the WER of an
ASR system, given a speech utterance and a transcription. This task has gained
increasing attention while advanced ASR systems are trained on large amounts of
data. In this case, WER estimation becomes necessary in many scenarios, for
example, selecting training data with unknown transcription quality or
estimating the testing performance of an ASR system without ground truth
transcriptions. Facing large amounts of data, the computation efficiency of a
WER estimator becomes essential in practical applications. However, previous
works usually did not consider it as a priority. In this paper, a Fast WER
estimator (Fe-WER) using self-supervised learning representation (SSLR) is
introduced. The estimator is built upon SSLR aggregated by average pooling. The
results show that Fe-WER outperformed the e-WER3 baseline relatively by 19.69%
and 7.16% on Ted-Lium3 in both evaluation metrics of root mean square error and
Pearson correlation coefficient, respectively. Moreover, the estimation
weighted by duration was 10.43% when the target was 10.88%. Lastly, the
inference speed was about 4x in terms of a real-time factor.
- Abstract(参考訳): 自動音声認識(ASR)の品質は通常、単語誤り率(WER)によって測定される。
wer推定は、音声発話と書き起こしを与えられたasrシステムのwerを予測することを目的としたタスクである。
高度なasrシステムが大量のデータで訓練されている間、このタスクは注目を集めている。
この場合、未知の書き起こし品質を持つトレーニングデータの選択や、基礎的真理の書き起こしを伴わないasrシステムのテスト性能の推定など、多くのシナリオにおいてwer推定が必要となる。
大量のデータに直面すると、WER推定器の計算効率は実用化に欠かせないものとなる。
しかし、従来の作品では優先事項とはみなされなかった。
本稿では,自己教師付き学習表現(SSLR)を用いた高速WER推定器(Fe-WER)を提案する。
推定器は平均プールによって集約されたSSLR上に構築される。
その結果,Fe-WERは根平均二乗誤差とピアソン相関係数の両評価指標において,Ted-Lium3のE-WER3ベースラインを19.69%,Ted-Lium3は7.16%で相対的に上回った。
また、目標が10.88%のときの時間重み付けは10.43%であった。
最後に、推定速度はリアルタイム係数の約4倍であった。
関連論文リスト
- Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。
本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T16:57:05Z) - UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文 参考訳(メタデータ) (2024-01-11T06:30:07Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - H_eval: A new hybrid evaluation metric for automatic speech recognition
tasks [0.3277163122167433]
ASRシステムのための新しいハイブリッド評価指標であるH_evalを提案する。
意味的正当性と誤り率の両方を考慮し、WERとSDが不十分なシナリオでは極めてよく機能する。
論文 参考訳(メタデータ) (2022-11-03T11:23:36Z) - Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and
Self-training of Neural Transducer [20.8850874806462]
本稿では、ラベルなし音声データを用いて教師なしの微調整と自己学習を行うための新しい手法を提案する。
微調整作業のために、ASRモデルはウォールストリートジャーナル(WSJ)、オーロラ4、およびCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
自己学習タスクでは,ウォール・ストリート・ジャーナル(WSJ)やオーロラ4(Aurora-4)の教師付きデータとCHiME-4の実雑音データをラベルなしデータとしてトレーニングする。
論文 参考訳(メタデータ) (2022-07-29T15:14:03Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。
従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。
現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文 参考訳(メタデータ) (2021-06-18T17:04:57Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。