Fugu-MT 論文翻訳(概要): RED-ACE: Robust Error Detection for ASR using Confidence Embeddings

論文の概要: RED-ACE: Robust Error Detection for ASR using Confidence Embeddings

arxiv url: http://arxiv.org/abs/2203.07172v1
Date: Mon, 14 Mar 2022 15:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-15 14:46:50.025655
Title: RED-ACE: Robust Error Detection for ASR using Confidence Embeddings
Title（参考訳）: RED-ACE:信頼埋め込みを用いたASRのロバストエラー検出
Authors: Zorik Gekhman, Dina Zverinski, Jonathan Mallinson, Genady Beryozkin
Abstract要約: ASRシステムの単語レベルの信頼度スコアをAEDの性能向上に活用することを提案する。 AEDモデルのエンコーダにASR Confidence Embeddingレイヤを追加し、信頼スコアと転写されたテキストをコンテキスト化された表現に共同でエンコードできるようにします。
参考スコア（独自算出の注目度）: 5.4693121539705984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: ASR Error Detection (AED) models aim to post-process the output of Automatic Speech Recognition (ASR) systems, in order to detect transcription errors. Modern approaches usually use text-based input, comprised solely of the ASR transcription hypothesis, disregarding additional signals from the ASR model. Instead, we propose to utilize the ASR system's word-level confidence scores for improving AED performance. Specifically, we add an ASR Confidence Embedding (ACE) layer to the AED model's encoder, allowing us to jointly encode the confidence scores and the transcribed text into a contextualized representation. Our experiments show the benefits of ASR confidence scores for AED, their complementary effect over the textual signal, as well as the effectiveness and robustness of ACE for combining these signals. To foster further research, we publish a novel AED dataset consisting of ASR outputs on the LibriSpeech corpus with annotated transcription errors.
Abstract（参考訳）: ASRエラー検出(AED)モデルは、自動音声認識(ASR)システムの出力を後処理して、転写エラーを検出することを目的としている。現代のアプローチでは、通常テキストベースの入力を使用し、ASRモデルの追加信号を無視して、ASRの転写仮説のみで構成されている。そこで本研究では,ASRシステムの単語レベルの信頼度スコアをAEDの性能向上に活用することを提案する。具体的には、AIDモデルのエンコーダにASR Confidence Embedding(ACE)層を追加し、信頼スコアと転写されたテキストをコンテキスト化された表現に共同でエンコードする。実験の結果,AID に対する ASR 信頼スコアの利点,テキスト信号に対する相補的効果,およびこれらの信号を組み合わせるためのACE の有効性と堅牢性を示した。さらなる研究を促進するために, 注釈付き書き起こし誤りのあるLibriSpeech corpus 上で ASR 出力からなる新しい AED データセットを公表した。

関連論文リスト

Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文参考訳（メタデータ） (2024-06-29T17:56:28Z)
Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-12T15:59:25Z)
Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文参考訳（メタデータ） (2024-05-26T19:58:38Z)
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction [23.812838405442953]
本稿では,モダリティ間の共有表現を学習するための新しいマルチモーダル融合法を提案する。実験の結果、MF-AED-AECはベースラインモデルよりも4.1%優れていた。
論文参考訳（メタデータ） (2024-01-24T06:55:55Z)
Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる ASR誤差はカスケード法における出力要約の品質に直接影響する。本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文参考訳（メタデータ） (2021-11-16T03:00:29Z)
FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。 fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文参考訳（メタデータ） (2021-05-09T05:35:36Z)
An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文参考訳（メタデータ） (2021-03-25T05:15:43Z)
Hallucination of speech recognition errors with sequence to sequence learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文参考訳（メタデータ） (2021-03-23T02:09:39Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。