論文の概要: An Investigation of End-to-End Models for Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.06237v1
- Date: Thu, 11 Feb 2021 19:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 14:34:11.019823
- Title: An Investigation of End-to-End Models for Robust Speech Recognition
- Title(参考訳): ロバスト音声認識のためのエンドツーエンドモデルの検討
- Authors: Archiki Prasad, Preethi Jyothi, Rajbabu Velmurugan
- Abstract要約: 本稿では,頑健な音声認識のための音声強調に基づく手法と3つの異なるモデルに基づく適応手法の比較を行う。
対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。
他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。
- 参考スコア(独自算出の注目度): 20.998349142078805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end models for robust automatic speech recognition (ASR) have not been
sufficiently well-explored in prior work. With end-to-end models, one could
choose to preprocess the input speech using speech enhancement techniques and
train the model using enhanced speech. Another alternative is to pass the noisy
speech as input and modify the model architecture to adapt to noisy speech. A
systematic comparison of these two approaches for end-to-end robust ASR has not
been attempted before. We address this gap and present a detailed comparison of
speech enhancement-based techniques and three different model-based adaptation
techniques covering data augmentation, multi-task learning, and adversarial
learning for robust ASR. While adversarial learning is the best-performing
technique on certain noise types, it comes at the cost of degrading clean
speech WER. On other relatively stationary noise types, a new speech
enhancement technique outperformed all the model-based adaptation techniques.
This suggests that knowledge of the underlying noise type can meaningfully
inform the choice of adaptation technique.
- Abstract(参考訳): 堅牢な自動音声認識(ASR)のためのエンドツーエンドモデルは、以前の作業で十分に十分に検討されていませんでした。
エンドツーエンドモデルでは、音声強調技術を用いて入力音声の前処理を選択でき、拡張音声を用いてモデルを訓練することができる。
もう1つの選択肢は、ノイズ音声を入力として渡し、モデルアーキテクチャを変更して雑音音声に適応させることである。
エンドツーエンドのロバストなasrに対するこれら2つのアプローチの体系的な比較は、これまで試みられていない。
このギャップに対処し、ロバストASRのためのデータ強化、マルチタスク学習、対角学習を含む、音声強調に基づく手法と3つの異なるモデルベース適応手法の詳細な比較を示す。
対向学習は特定の雑音の種類において最高の性能の手法であるが、クリーン音声WERを劣化させるコストがかかる。
他の比較的定常的なノイズタイプでは、新しい音声強調技術がモデルに基づく適応技術をすべて上回っていた。
このことは,基礎となる雑音タイプの知識が適応手法の選択に有意義な影響を与えることを示唆する。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - A Systematic Comparison of Phonetic Aware Techniques for Speech
Enhancement [20.329872147913584]
音声強調モデルにおける音声情報の統合方法の比較を行った。
異なる音声コンテンツモデルと様々な特徴注入技術が性能向上に与える影響を観察する。
論文 参考訳(メタデータ) (2022-06-22T12:00:50Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。