Fugu-MT 論文翻訳(概要): ASR Error Detection via Audio-Transcript entailment

論文の概要: ASR Error Detection via Audio-Transcript entailment

arxiv url: http://arxiv.org/abs/2207.10849v1
Date: Fri, 22 Jul 2022 02:47:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-25 12:38:48.284616
Title: ASR Error Detection via Audio-Transcript entailment
Title（参考訳）: オーディオ・トランスクリプト・エンターメントによるASR誤り検出
Authors: Nimshi Venkat Meripo, Sandeep Konam
Abstract要約: 音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
参考スコア（独自算出の注目度）: 1.3750624267664155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite improved performances of the latest Automatic Speech Recognition (ASR) systems, transcription errors are still unavoidable. These errors can have a considerable impact in critical domains such as healthcare, when used to help with clinical documentation. Therefore, detecting ASR errors is a critical first step in preventing further error propagation to downstream applications. To this end, we propose a novel end-to-end approach for ASR error detection using audio-transcript entailment. To the best of our knowledge, we are the first to frame this problem as an end-to-end entailment task between the audio segment and its corresponding transcript segment. Our intuition is that there should be a bidirectional entailment between audio and transcript when there is no recognition error and vice versa. The proposed model utilizes an acoustic encoder and a linguistic encoder to model the speech and transcript respectively. The encoded representations of both modalities are fused to predict the entailment. Since doctor-patient conversations are used in our experiments, a particular emphasis is placed on medical terms. Our proposed model achieves classification error rates (CER) of 26.2% on all transcription errors and 23% on medical errors specifically, leading to improvements upon a strong baseline by 12% and 15.4%, respectively.
Abstract（参考訳）: 最新の自動音声認識(ASR)システムの性能改善にもかかわらず、転写エラーは避けられない。これらのエラーは、臨床ドキュメントの助けとなると、医療などの重要な領域に大きな影響を与える可能性がある。したがって、ASRエラーの検出は、下流アプリケーションへのさらなるエラー伝搬を防止するための重要な第一歩である。そこで本研究では,音声書き起こしによるASR誤り検出のための新しいエンドツーエンドアプローチを提案する。我々の知る限りでは、我々はこの問題を音声セグメントとその対応する転写セグメント間のエンドツーエンドの包含タスクとして最初に捉えている。私たちの直感は、認識エラーがなければ、オーディオと書き起こしの間に双方向の制約があるべきだということです。提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。両方のモダリティのエンコードされた表現は、包含を予測するために融合される。本実験では, 医師と患者との会話が用いられているので, 医療用語に特に重点を置いている。提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。

関連論文リスト

"Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most [30.735876729204012]
本研究は, ハイテイクタスクにおける障害モードについて考察する。 OpenAI、Deepgram、Google、Microsoftの15のモデルを、言語的に多様な米国の話者の録音で評価し、平均転写エラー率は44%である。この害を軽減するために、オープンソースのテキスト音声モデルを用いて、名前付きエンティティの様々な発音を生成する合成データ生成手法を導入する。
論文参考訳（メタデータ） (2026-02-12T18:36:09Z)
Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
Not All Errors Are Equal: Investigation of Speech Recognition Errors in Alzheimer's Disease Detection [62.942077348224046]
アルツハイマー病(AD)の自動診断における音声認識の役割近年の研究では,単語誤り率(WER)とAD検出性能の非線形関係が明らかにされている。本研究は,BERTを用いたAD検出システムにおけるASR転写誤りの影響について,一連の解析を行った。
論文参考訳（メタデータ） (2024-12-09T09:32:20Z)
A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文参考訳（メタデータ） (2024-09-06T09:26:45Z)
Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文参考訳（メタデータ） (2024-08-30T11:02:17Z)
Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文参考訳（メタデータ） (2024-06-29T17:56:28Z)
Improving Audio Caption Fluency with Automatic Error Correction [23.157732462075547]
本稿では,AAC出力後処理のための新しいAAC誤り訂正タスクを提案する。我々は、観察に基づく規則を用いて、誤りのない字幕を破損させ、疑似文法的誤文生成を行う。我々は、合成エラーデータセットに基づいてニューラルネットワークベースのモデルをトレーニングし、AAC出力の実際のエラーを修正するためにモデルを適用する。
論文参考訳（メタデータ） (2023-06-16T13:37:01Z)
SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。 AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文参考訳（メタデータ） (2022-12-02T09:11:32Z)
End-to-end contextual asr based on posterior distribution adaptation for hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文参考訳（メタデータ） (2022-02-18T03:26:02Z)
FastCorrect 2: Fast Error Correction on Multiple Candidates for Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。 FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-09-29T13:48:03Z)
Improving Distinction between ASR Errors and Speech Disfluencies with Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文参考訳（メタデータ） (2021-08-04T02:11:37Z)
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文参考訳（メタデータ） (2021-04-19T16:18:00Z)
Hallucination of speech recognition errors with sequence to sequence learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文参考訳（メタデータ） (2021-03-23T02:09:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。