論文の概要: Improving And Analyzing Neural Speaker Embeddings for ASR
- arxiv url: http://arxiv.org/abs/2301.04571v1
- Date: Wed, 11 Jan 2023 16:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:11:12.960524
- Title: Improving And Analyzing Neural Speaker Embeddings for ASR
- Title(参考訳): asrのためのニューラル話者埋め込みの改善と解析
- Authors: Christoph L\"uscher, Jingjing Xu, Mohammad Zeineldeen, Ralf
Schl\"uter, Hermann Ney
- Abstract要約: 本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
- 参考スコア(独自算出の注目度): 46.78701739177677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural speaker embeddings encode the speaker's speech characteristics through
a DNN model and are prevalent for speaker verification tasks. However, few
studies have investigated the usage of neural speaker embeddings for an ASR
system. In this work, we present our efforts w.r.t integrating neural speaker
embeddings into a conformer based hybrid HMM ASR system. For ASR, our improved
embedding extraction pipeline in combination with the Weighted-Simple-Add
integration method results in x-vector and c-vector reaching on par performance
with i-vectors. We further compare and analyze different speaker embeddings. We
present our acoustic model improvements obtained by switching from newbob
learning rate schedule to one cycle learning schedule resulting in a ~3%
relative WER reduction on Switchboard, additionally reducing the overall
training time by 17%. By further adding neural speaker embeddings, we gain
additional ~3% relative WER improvement on Hub5'00. Our best Conformer-based
hybrid ASR system with speaker embeddings achieves 9.0% WER on Hub5'00 and
Hub5'01 with training on SWB 300h.
- Abstract(参考訳): ニューラルスピーカ埋め込みは、DNNモデルを介して話者の音声特性を符号化し、話者検証タスクに有効である。
しかし、ASRシステムにおけるニューラルスピーカー埋め込みの使用について研究する研究はほとんどない。
本研究では,コンバータをベースとしたハイブリッドHMM ASRシステムにニューラルスピーカーの埋め込みを組み込むための取り組みについて述べる。
ASRの場合、改良された埋め込み抽出パイプラインと重み付きSimple-Add積分法を組み合わせると、xベクトルとcベクトルがiベクトルと同等の性能に達する。
さらに、異なる話者埋め込みを比較し分析する。
ニューボブの学習速度スケジュールから1サイクルの学習スケジュールに切り替えることで,Switchboard上でのWERの相対的な減少と,トレーニング時間全体の17%の短縮を実現した音響モデルの改善について述べる。
さらにニューラルスピーカーの埋め込みを追加することで、Hub5'00で約3%の相対的なWER改善が得られます。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
関連論文リスト
- Improving the Training Recipe for a Robust Conformer-based Hybrid Model [46.78701739177677]
コンバータベース音響モデル(AM)の特徴空間アプローチに基づく話者適応訓練(SAT)の様々な手法について検討する。
本稿では,コンバータAMのマルチヘッド自己アテンションモジュールの入力に重み付き話者情報ベクトルを追加する重み付きSimple-Addを提案する。
Switchboard 300h Hub5'00データセットのワードエラーレート(WER)で11%の相対的な改善を実現したレシピを拡張して改善する。
論文 参考訳(メタデータ) (2022-06-26T20:01:08Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - Combination of Deep Speaker Embeddings for Diarisation [9.053645441056256]
本稿では、異なるNN成分を持つシステムから派生した複数の相補的なd-ベクターの組み合わせにより、c-ベクター法を提案する。
本稿では,ニューラルネットワークを用いた単一パス話者ダイアリゼーションパイプラインを提案する。
挑戦的なAMIとNIST RT05データセットについて実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2020-10-22T20:16:36Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。