Fugu-MT 論文翻訳(概要): Improving Speech Recognition Error Prediction for Modern and Off-the-shelf Speech Recognizers

論文の概要: Improving Speech Recognition Error Prediction for Modern and Off-the-shelf Speech Recognizers

arxiv url: http://arxiv.org/abs/2408.11258v1
Date: Wed, 21 Aug 2024 00:48:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 18:58:50.463511
Title: Improving Speech Recognition Error Prediction for Modern and Off-the-shelf Speech Recognizers
Title（参考訳）: モダン・オフザシェルフ音声認識における音声認識誤り予測の改善
Authors: Prashant Serai, Peidong Wang, Eric Fosler-Lussier,
Abstract要約: 我々は、音声認識誤りを2つの方法で予測するために、事前の音声混乱に基づくモデルを拡張した。後部音響モデルの振舞いをより良くシミュレートするサンプリングベースパラダイムを提案する。まず,Switchboard ASRシステムのエラーを未知のデータ上で予測し,次に,同じ予測器を用いて,無関係なクラウドベースのASRシステムの挙動を推定する。
参考スコア（独自算出の注目度）: 15.74988399856102
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Modeling the errors of a speech recognizer can help simulate errorful recognized speech data from plain text, which has proven useful for tasks like discriminative language modeling, improving robustness of NLP systems, where limited or even no audio data is available at train time. Previous work typically considered replicating behavior of GMM-HMM based systems, but the behavior of more modern posterior-based neural network acoustic models is not the same and requires adjustments to the error prediction model. In this work, we extend a prior phonetic confusion based model for predicting speech recognition errors in two ways: first, we introduce a sampling-based paradigm that better simulates the behavior of a posterior-based acoustic model. Second, we investigate replacing the confusion matrix with a sequence-to-sequence model in order to introduce context dependency into the prediction. We evaluate the error predictors in two ways: first by predicting the errors made by a Switchboard ASR system on unseen data (Fisher), and then using that same predictor to estimate the behavior of an unrelated cloud-based ASR system on a novel task. Sampling greatly improves predictive accuracy within a 100-guess paradigm, while the sequence model performs similarly to the confusion matrix.
Abstract（参考訳）: 音声認識器の誤りをモデル化することは、識別言語モデリングやNLPシステムの堅牢性向上など、列車時に音声データが限定的または全く利用できないタスクに有用な、プレーンテキストからの誤り認識音声データのシミュレートに役立てることができる。従来の研究はGMM-HMMベースのシステムの複製挙動を概ね検討していたが、より近代的な後部ニューラルネットワーク音響モデルの振る舞いは同じではなく、エラー予測モデルを調整する必要がある。本研究では,音声認識の誤りを予測するための事前の音声混乱に基づくモデルを拡張する。まず,後部音響モデルの振舞いをより良くシミュレートするサンプリングベースパラダイムを導入する。第2に、予測にコンテキスト依存性を導入するために、混乱行列をシーケンス・ツー・シーケンスモデルに置き換えることを検討する。まず、未確認データ(Fisher)上でSwitchboard ASRシステムのエラーを予測し、次に、その同じ予測器を用いて、新しいタスクで無関係なクラウドベースのASRシステムの挙動を推定する。サンプリングは100-guessのパラダイム内で予測精度を大幅に向上する一方、シーケンスモデルは混乱行列と同様に動作する。

関連論文リスト

From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文参考訳（メタデータ） (2025-10-22T06:58:55Z)
Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文参考訳（メタデータ） (2025-05-25T23:17:47Z)
HopCast: Calibration of Autoregressive Dynamics Models [0.0]
この研究は、モダンホップフィールドネットワーク(MHN)を用いて決定論的予測子の誤りを学習するホップ(hop)と呼ばれる代替のPredictor-Correctorアプローチを導入する。 Correctorは、自動回帰中の任意の時点のコンテキスト状態に基づいて、予測子の出力に対する一連のエラーを予測する。キャリブレーションと予測性能は一連の力学系で評価される。
論文参考訳（メタデータ） (2025-01-27T23:59:23Z)
Quantifying the Role of Textual Predictability in Automatic Speech Recognition [13.306122574236232]
音声認識研究における長年の疑問は、エラーを音響をモデル化するモデルの能力にどのように属性付けるかである。テキストの相対的予測可能性の関数として誤り率をモデル化する新しい手法を検証する。本稿では,ASRの診断と改善において,このアプローチがいかに簡単に利用できるかを示す。
論文参考訳（メタデータ） (2024-07-23T14:47:25Z)
Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。 MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文参考訳（メタデータ） (2024-07-11T14:36:53Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Analyzing Robustness of End-to-End Neural Models for Automatic Speech Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文参考訳（メタデータ） (2022-08-17T20:00:54Z)
Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文参考訳（メタデータ） (2022-03-17T08:05:38Z)
Mitigating Closed-model Adversarial Examples with Bayesian Neural Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文参考訳（メタデータ） (2022-02-17T09:17:58Z)
Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文参考訳（メタデータ） (2021-02-08T11:45:02Z)
Anomaly Detection of Time Series with Smoothness-Inducing Sequential Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文参考訳（メタデータ） (2021-02-02T06:15:15Z)
Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。我々は,再建基準の代替として,異常スコアの代替尺度を提案した。提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文参考訳（メタデータ） (2020-03-24T08:26:58Z)
Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文参考訳（メタデータ） (2020-03-17T22:01:12Z)
Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文参考訳（メタデータ） (2020-02-06T12:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。