論文の概要: DNN-Based Semantic Model for Rescoring N-best Speech Recognition List
- arxiv url: http://arxiv.org/abs/2011.00975v1
- Date: Mon, 2 Nov 2020 13:50:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:56:23.090549
- Title: DNN-Based Semantic Model for Rescoring N-best Speech Recognition List
- Title(参考訳): n-best音声認識リストを再現するdnnに基づく意味モデル
- Authors: Dominique Fohr, Irina Illina
- Abstract要約: 自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
- 参考スコア(独自算出の注目度): 8.934497552812012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The word error rate (WER) of an automatic speech recognition (ASR) system
increases when a mismatch occurs between the training and the testing
conditions due to the noise, etc. In this case, the acoustic information can be
less reliable. This work aims to improve ASR by modeling long-term semantic
relations to compensate for distorted acoustic features. We propose to perform
this through rescoring of the ASR N-best hypotheses list. To achieve this, we
train a deep neural network (DNN). Our DNN rescoring model is aimed at
selecting hypotheses that have better semantic consistency and therefore lower
WER. We investigate two types of representations as part of input features to
our DNN model: static word embeddings (from word2vec) and dynamic contextual
embeddings (from BERT). Acoustic and linguistic features are also included. We
perform experiments on the publicly available dataset TED-LIUM mixed with real
noise. The proposed rescoring approaches give significant improvement of the
WER over the ASR system without rescoring models in two noisy conditions and
with n-gram and RNNLM.
- Abstract(参考訳): 自動音声認識(asr)システムの単語誤り率(wer)は、トレーニングと雑音等によるテスト条件とのミスマッチが発生した場合に増加する。
この場合、音響情報は信頼性が低下する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
我々は、ASR N-best仮説リストの再構成によりこれを実行することを提案する。
これを実現するために、ディープニューラルネットワーク(DNN)を訓練する。
我々のDNN再構成モデルは、セマンティック一貫性が良く、従ってWERが低い仮説を選択することを目的としている。
DNNモデルへの入力機能の一部として,静的単語埋め込み(word2vec)と動的文脈埋め込み(BERT)の2種類の表現について検討する。
音響的・言語的特徴も含む。
実雑音を混合した公開データセットted-lium上で実験を行う。
提案手法は, 2つの雑音条件とn-gram, RNNLMでモデルを再構成することなく, ASRシステムに対してWERを大幅に改善する。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文 参考訳(メタデータ) (2022-02-17T09:17:58Z) - CS-Rep: Making Speaker Verification Networks Embracing
Re-parameterization [27.38202134344989]
本研究では、モデルの推論速度と検証精度を高めるために、CS-Rep(クロスシーケンス再パラメータ化)を提案する。
Rep-TDNNは実際の推論速度を50%向上させ、EERを10%削減する。
論文 参考訳(メタデータ) (2021-10-26T08:00:03Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。