論文の概要: A Conformer Based Acoustic Model for Robust Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.00725v1
- Date: Tue, 1 Mar 2022 20:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:51:35.765703
- Title: A Conformer Based Acoustic Model for Robust Automatic Speech Recognition
- Title(参考訳): 頑健な自動音声認識のためのコンフォーメータに基づく音響モデル
- Authors: Yufeng Yang, Peidong Wang, DeLiang Wang
- Abstract要約: 提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
- 参考スコア(独自算出の注目度): 63.242128956046024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses robust automatic speech recognition (ASR) by introducing
a Conformer-based acoustic model. The proposed model builds on a
state-of-the-art recognition system using a bi-directional long short-term
memory (BLSTM) model with utterance-wise dropout and iterative speaker
adaptation, but employs a Conformer encoder instead of the BLSTM network. The
Conformer encoder uses a convolution-augmented attention mechanism for acoustic
modeling. The proposed system is evaluated on the monaural ASR task of the
CHiME-4 corpus. Coupled with utterance-wise normalization and speaker
adaptation, our model achieves $6.25\%$ word error rate, which outperforms the
previous best system by $8.4\%$ relatively. In addition, the proposed
Conformer-based model is $18.3\%$ smaller in model size and reduces training
time by $88.5\%$.
- Abstract(参考訳): 本研究は、コンフォーマに基づく音響モデルを導入することで、ロバストな自動音声認識(asr)を実現する。
提案手法は,双方向長短短期記憶(blstm)モデルを用いた最先端認識システムを構築し,発話方向のドロップアウトと反復話者適応を行うが,blstmネットワークの代わりにコンフォーマエンコーダを用いる。
コンフォーメータエンコーダは、音響モデリングに畳み込み型注意機構を使用する。
提案システムはCHiME-4コーパスの単調ASRタスクに基づいて評価される。
発話の正規化や話者適応と組み合わせて、我々のモデルは6.25 %$ワードエラー率を達成し、従来の最良のシステムよりも8.4 %$相対的に優れている。
さらに、提案されたコンフォーマーベースのモデルは、モデルサイズがより小さく、トレーニング時間を8.5 %$に短縮する。
関連論文リスト
- Enhancing Quantised End-to-End ASR Models via Personalisation [12.971231464928806]
量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。
PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
論文 参考訳(メタデータ) (2023-09-17T02:35:21Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Rapid Connectionist Speaker Adaptation [3.00476084358666]
本稿では,話者変動をモデル化するシステムであるSVCnetを提案する。
それぞれの音声に特化する神経ネットワークは、音響的変動の低次元モデルを生成する。
音声が発声されたこのモデルの依存性を最小限に抑える訓練手順について述べる。
論文 参考訳(メタデータ) (2022-11-15T00:15:11Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文 参考訳(メタデータ) (2022-02-17T09:17:58Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and
Accented Speech [5.960279280033886]
モデルファインタニングと比較して,比較的少数の余分なパラメータをエンコーダ層に追加することにより,類似の適応ゲインが得られることを示す。
我々はこれを2つの言語適応タスク(非典型的およびアクセント付き音声)と2つの最先端のASRアーキテクチャで実証する。
論文 参考訳(メタデータ) (2021-09-14T20:04:47Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。