論文の概要: WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal
Classification Paradigm
- arxiv url: http://arxiv.org/abs/2101.05478v2
- Date: Sat, 13 Feb 2021 15:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 08:45:26.899393
- Title: WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal
Classification Paradigm
- Title(参考訳): WER-BERT:バランスの取れた正規分類パラダイムにおけるBERTによるWERの自動推定
- Authors: Akshay Krishna Sheshadri, Anvesh Rao Vijjini, Sukhdeep Kharbanda
- Abstract要約: 分類設定におけるe-WERの新たなバランスの取れたパラダイムを提案する。
このパラダイムでは、E-WERの音声機能を備えたBERTベースのアーキテクチャであるWER-BERTも提案しています。
結果と実験は、WER-BERTが自動WER推定において新しい最先端を確立することを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems are evaluated using Word Error
Rate (WER), which is calculated by comparing the number of errors between the
ground truth and the transcription of the ASR system. This calculation,
however, requires manual transcription of the speech signal to obtain the
ground truth. Since transcribing audio signals is a costly process, Automatic
WER Evaluation (e-WER) methods have been developed to automatically predict the
WER of a speech system by only relying on the transcription and the speech
signal features. While WER is a continuous variable, previous works have shown
that positing e-WER as a classification problem is more effective than
regression. However, while converting to a classification setting, these
approaches suffer from heavy class imbalance. In this paper, we propose a new
balanced paradigm for e-WER in a classification setting. Within this paradigm,
we also propose WER-BERT, a BERT based architecture with speech features for
e-WER. Furthermore, we introduce a distance loss function to tackle the ordinal
nature of e-WER classification. The proposed approach and paradigm are
evaluated on the Librispeech dataset and a commercial (black box) ASR system,
Google Cloud's Speech-to-Text API. The results and experiments demonstrate that
WER-BERT establishes a new state-of-the-art in automatic WER estimation.
- Abstract(参考訳): 単語誤り率(WER)を用いて自動音声認識(ASR)システムを評価する。
しかし、この計算では、音声信号を手動で書き起こして、基礎的な真理を得る必要がある。
音声信号の書き起こしはコストがかかるプロセスであるため,音声信号の書き起こしと音声信号の特徴のみを頼りに,音声システムのWERを自動的に予測する自動WER評価法が開発されている。
WERは連続変数であるが、以前の研究では、e-WERを分類問題として仮定することは回帰よりも効果的であることが示されている。
しかし、分類設定に変換する一方で、これらのアプローチは重いクラス不均衡に苦しむ。
本稿では,e-werの分類における新しいバランスのとれたパラダイムを提案する。
このパラダイム内では、E-WERのための音声機能を備えたBERTベースのアーキテクチャであるWER-BERTも提案する。
さらに,e-WER分類の順序性に取り組むために,距離損失関数を導入する。
提案手法とパラダイムは,Google CloudのSpeech-to-Text APIである,Librispeechデータセットと商用(ブラックボックス)ASRシステムに基づいて評価される。
結果と実験により,WER-BERTは自動WER推定において新たな最先端技術を確立していることが示された。
関連論文リスト
- Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。
本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T16:57:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Zero-Shot Automatic Pronunciation Assessment [19.971348810774046]
本稿では,事前学習した音響モデル HuBERT に基づく新しいゼロショットAPA法を提案する。
speechocean762の実験結果から,提案手法は教師付き回帰ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-31T05:17:17Z) - Explanations for Automatic Speech Recognition [9.810810252231812]
音声フレームのサブセットとして、ASR転写の説明を提供する。
我々は,画像分類-統計的故障局所化(SFL)とCausalから既存の説明可能なAI技術を適用した。
提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。
論文 参考訳(メタデータ) (2023-02-27T11:09:19Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - End to End ASR System with Automatic Punctuation Insertion [0.0]
本稿では,TED.com から入手可能な transcript を用いて TEDLium データセットの句読点書き起こしを生成する手法を提案する。
また,音声信号から単語と句を同時に出力するエンドツーエンドのASRシステムを提案する。
論文 参考訳(メタデータ) (2020-12-03T15:46:43Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。