論文の概要: An Investigation of End-to-End Models for Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.06237v1
- Date: Thu, 11 Feb 2021 19:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 14:34:11.019823
- Title: An Investigation of End-to-End Models for Robust Speech Recognition
- Title(参考訳): ロバスト音声認識のためのエンドツーエンドモデルの検討
- Authors: Archiki Prasad, Preethi Jyothi, Rajbabu Velmurugan
- Abstract要約: 本稿では,頑健な音声認識のための音声強調に基づく手法と3つの異なるモデルに基づく適応手法の比較を行う。
対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。
他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。
- 参考スコア(独自算出の注目度): 20.998349142078805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end models for robust automatic speech recognition (ASR) have not been
sufficiently well-explored in prior work. With end-to-end models, one could
choose to preprocess the input speech using speech enhancement techniques and
train the model using enhanced speech. Another alternative is to pass the noisy
speech as input and modify the model architecture to adapt to noisy speech. A
systematic comparison of these two approaches for end-to-end robust ASR has not
been attempted before. We address this gap and present a detailed comparison of
speech enhancement-based techniques and three different model-based adaptation
techniques covering data augmentation, multi-task learning, and adversarial
learning for robust ASR. While adversarial learning is the best-performing
technique on certain noise types, it comes at the cost of degrading clean
speech WER. On other relatively stationary noise types, a new speech
enhancement technique outperformed all the model-based adaptation techniques.
This suggests that knowledge of the underlying noise type can meaningfully
inform the choice of adaptation technique.
- Abstract(参考訳): 堅牢な自動音声認識(ASR)のためのエンドツーエンドモデルは、以前の作業で十分に十分に検討されていませんでした。
エンドツーエンドモデルでは、音声強調技術を用いて入力音声の前処理を選択でき、拡張音声を用いてモデルを訓練することができる。
もう1つの選択肢は、ノイズ音声を入力として渡し、モデルアーキテクチャを変更して雑音音声に適応させることである。
エンドツーエンドのロバストなasrに対するこれら2つのアプローチの体系的な比較は、これまで試みられていない。
このギャップに対処し、ロバストASRのためのデータ強化、マルチタスク学習、対角学習を含む、音声強調に基づく手法と3つの異なるモデルベース適応手法の詳細な比較を示す。
対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。
他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。
このことは,基礎となる雑音タイプの知識が適応手法の選択に有意義な影響を与えることを示唆する。
関連論文リスト
- Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - A Systematic Comparison of Phonetic Aware Techniques for Speech
Enhancement [20.329872147913584]
音声強調モデルにおける音声情報の統合方法の比較を行った。
異なる音声コンテンツモデルと様々な特徴注入技術が性能向上に与える影響を観察する。
論文 参考訳(メタデータ) (2022-06-22T12:00:50Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。