論文の概要: Improving the Training Recipe for a Robust Conformer-based Hybrid Model
- arxiv url: http://arxiv.org/abs/2206.12955v1
- Date: Sun, 26 Jun 2022 20:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 14:06:42.815003
- Title: Improving the Training Recipe for a Robust Conformer-based Hybrid Model
- Title(参考訳): ロバスト変圧器を用いたハイブリッドモデルのためのトレーニングレシピの改善
- Authors: Mohammad Zeineldeen and Jingjing Xu and Christoph L\"uscher and Ralf
Schl\"uter and Hermann Ney
- Abstract要約: コンバータベース音響モデル(AM)の特徴空間アプローチに基づく話者適応訓練(SAT)の様々な手法について検討する。
本稿では,コンバータAMのマルチヘッド自己アテンションモジュールの入力に重み付き話者情報ベクトルを追加する重み付きSimple-Addを提案する。
Switchboard 300h Hub5'00データセットのワードエラーレート(WER)で11%の相対的な改善を実現したレシピを拡張して改善する。
- 参考スコア(独自算出の注目度): 46.78701739177677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker adaptation is important to build robust automatic speech recognition
(ASR) systems. In this work, we investigate various methods for speaker
adaptive training (SAT) based on feature-space approaches for a conformer-based
acoustic model (AM) on the Switchboard 300h dataset. We propose a method,
called Weighted-Simple-Add, which adds weighted speaker information vectors to
the input of the multi-head self-attention module of the conformer AM. Using
this method for SAT, we achieve 3.5% and 4.5% relative improvement in terms of
WER on the CallHome part of Hub5'00 and Hub5'01 respectively. Moreover, we
build on top of our previous work where we proposed a novel and competitive
training recipe for a conformer-based hybrid AM. We extend and improve this
recipe where we achieve 11% relative improvement in terms of word-error-rate
(WER) on Switchboard 300h Hub5'00 dataset. We also make this recipe efficient
by reducing the total number of parameters by 34% relative.
- Abstract(参考訳): 話者適応は、堅牢な自動音声認識(ASR)システムを構築する上で重要である。
本研究では,Switchboard 300h データセット上のコンバータベース音響モデル (AM) の特徴空間的アプローチに基づく話者適応訓練 (SAT) の様々な手法について検討する。
本稿では,コンバータAMのマルチヘッド自己アテンションモジュールの入力に重み付き話者情報ベクトルを付加するWeighted-Simple-Addを提案する。
SATのこの手法を用いて,Hub5'00のコールホーム部とHub5'01のWERの相対的な改善をそれぞれ3.5%と4.5%とした。
さらに,本研究では,コンフォーメータベースのハイブリッドamのための新鮮で競争力のあるトレーニングレシピを提案する。
Switchboard 300h Hub5'00データセットのワードエラーレート(WER)で11%の相対的な改善を実現したレシピを拡張して改善する。
また,パラメータの総数を34%削減することで,このレシピを効率化した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - On the limit of English conversational speech recognition [28.395662280898787]
対話型音声認識において,シングルヘッドアテンションエンコーダ・デコーダモデルが最先端の結果に到達できることを実証する。
Switchboard-300上でのLSTMシステムの認識誤差を4%削減する。
We report 5.9% and 11.5% WER on the SWB and CHM parts of Hub5'00 with very simple LSTM models。
論文 参考訳(メタデータ) (2021-05-03T16:32:38Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。