論文の概要: Feature Replacement and Combination for Hybrid ASR Systems
- arxiv url: http://arxiv.org/abs/2104.04298v1
- Date: Fri, 9 Apr 2021 11:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:10:27.871262
- Title: Feature Replacement and Combination for Hybrid ASR Systems
- Title(参考訳): ハイブリッドasrシステムのための機能置換と組み合わせ
- Authors: Peter Vieting, Christoph L\"uscher, Wilfried Michel, Ralf Schl\"uter,
Hermann Ney
- Abstract要約: ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
- 参考スコア(独自算出の注目度): 47.74348197215634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic modeling of raw waveform and learning feature extractors as part of
the neural network classifier has been the goal of many studies in the area of
automatic speech recognition (ASR). Recently, one line of research has focused
on frameworks that can be pre-trained on audio-only data in an unsupervised
fashion and aim at improving downstream ASR tasks. In this work, we investigate
the usefulness of one of these front-end frameworks, namely wav2vec, for hybrid
ASR systems. In addition to deploying a pre-trained feature extractor, we
explore how to make use of an existing acoustic model (AM) trained on the same
task with different features as well. Another neural front-end which is only
trained together with the supervised ASR loss as well as traditional Gammatone
features are applied for comparison. Moreover, it is shown that the AM can be
retrofitted with i-vectors for speaker adaptation. Finally, the described
features are combined in order to further advance the performance. With the
final best system, we obtain a relative improvement of 4% and 6% over our
previous best model on the LibriSpeech test-clean and test-other sets.
- Abstract(参考訳): ニューラルネットワーク分類器の一部としての生波形と学習特徴抽出器の音響モデリングは、自動音声認識(ASR)分野における多くの研究の目標となっている。
最近、ある研究は、教師なしの方法で音声のみのデータに事前学習できるフレームワークに焦点を合わせ、下流のASRタスクの改善を目指している。
本研究では,これらのフロントエンドフレームワーク,すなわちwav2vecのハイブリッドASRシステムへの応用について検討する。
事前学習した特徴抽出器の展開に加えて,同一タスクで訓練された既存の音響モデル(AM)の活用方法についても検討する。
教師付きasr損失と従来のガンマトーン特徴とを併用して訓練された別の神経フロントエンドが比較に適用される。
さらに,話者適応のためのiベクターをAMに組み込むことができることを示した。
最後に、上記特徴を組み合わせることで、さらなる性能向上を図る。
最終最良のシステムでは、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善が得られる。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization [21.216783537997426]
本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。
また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
論文 参考訳(メタデータ) (2021-08-10T13:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。