論文の概要: End-to-End Multi-speaker ASR with Independent Vector Analysis
- arxiv url: http://arxiv.org/abs/2204.00218v1
- Date: Fri, 1 Apr 2022 05:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:33:14.784860
- Title: End-to-End Multi-speaker ASR with Independent Vector Analysis
- Title(参考訳): 独立ベクトル解析を用いたエンドツーエンドマルチスピーカASR
- Authors: Robin Scheibler, Wangyou Zhang, Xuankai Chang, Shinji Watanabe, Yanmin
Qian
- Abstract要約: マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
- 参考スコア(独自算出の注目度): 80.83577165608607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop an end-to-end system for multi-channel, multi-speaker automatic
speech recognition. We propose a frontend for joint source separation and
dereverberation based on the independent vector analysis (IVA) paradigm. It
uses the fast and stable iterative source steering algorithm together with a
neural source model. The parameters from the ASR module and the neural source
model are optimized jointly from the ASR loss itself. We demonstrate
competitive performance with previous systems using neural beamforming
frontends. First, we explore the trade-offs when using various number of
channels for training and testing. Second, we demonstrate that the proposed IVA
frontend performs well on noisy data, even when trained on clean mixtures only.
Furthermore, it extends without retraining to the separation of more speakers,
which is demonstrated on mixtures of three and four speakers.
- Abstract(参考訳): マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)パラダイムに基づく共同音源分離と残響のフロントエンドを提案する。
高速で安定した反復的ソースステアリングアルゴリズムとニューラルソースモデルを使用する。
ASRモジュールとニューラルソースモデルからのパラメータは、ASR損失自体から共同で最適化される。
神経ビームフォーミングフロントエンドを用いて,従来システムとの競合性能を示す。
まず、トレーニングとテストにさまざまなチャネルを使用する場合のトレードオフについて検討する。
第2に,クリーンミックスのみのトレーニングにおいても,提案したIVAフロントエンドがノイズの多いデータに対して良好に動作することを示す。
さらに、3と4の混合話者で示される、より多くの話者の分離に再訓練することなく拡張する。
関連論文リスト
- Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - Self-Attention Channel Combinator Frontend for End-to-End Multichannel
Far-field Speech Recognition [1.0276024900942875]
十分に大きな遠距離訓練データが提示されると、マルチチャネルとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。
近年の文献では、MVDR(Minimum Varianceless Response)や固定ビームフォーマを学習可能なパラメータを持つE2E ASRシステムに統合できることが示されている。
本稿では、自己アテンション・チャンネル・ディストラクタ(SACC)ASRを提案する。これは、自己アテンション・メカニズムを利用して、大域スペクトル領域におけるマルチチャンネル音声信号を組み合わせたものである。
論文 参考訳(メタデータ) (2021-09-10T11:03:43Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Combination of Deep Speaker Embeddings for Diarisation [9.053645441056256]
本稿では、異なるNN成分を持つシステムから派生した複数の相補的なd-ベクターの組み合わせにより、c-ベクター法を提案する。
本稿では,ニューラルネットワークを用いた単一パス話者ダイアリゼーションパイプラインを提案する。
挑戦的なAMIとNIST RT05データセットについて実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2020-10-22T20:16:36Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。