論文の概要: Conformer-based Target-Speaker Automatic Speech Recognition for
Single-Channel Audio
- arxiv url: http://arxiv.org/abs/2308.05218v1
- Date: Wed, 9 Aug 2023 20:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 14:29:29.722293
- Title: Conformer-based Target-Speaker Automatic Speech Recognition for
Single-Channel Audio
- Title(参考訳): コンフォーメータを用いた単一チャネル音声の自動音声認識
- Authors: Yang Zhang, Krishna C. Puvvada, Vitaly Lavrukhin, Boris Ginsburg
- Abstract要約: 単一チャネル話者自動音声認識のための非自己回帰型エンドツーエンド時間周波数領域アーキテクチャを提案する。
提案されたモデルはNVIDIA NeMoツールキットを通じてオープンソース化される予定である。
- 参考スコア(独自算出の注目度): 13.648878603097764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose CONF-TSASR, a non-autoregressive end-to-end time-frequency domain
architecture for single-channel target-speaker automatic speech recognition
(TS-ASR). The model consists of a TitaNet based speaker embedding module, a
Conformer based masking as well as ASR modules. These modules are jointly
optimized to transcribe a target-speaker, while ignoring speech from other
speakers. For training we use Connectionist Temporal Classification (CTC) loss
and introduce a scale-invariant spectrogram reconstruction loss to encourage
the model better separate the target-speaker's spectrogram from mixture. We
obtain state-of-the-art target-speaker word error rate (TS-WER) on
WSJ0-2mix-extr (4.2%). Further, we report for the first time TS-WER on
WSJ0-3mix-extr (12.4%), LibriSpeech2Mix (4.2%) and LibriSpeech3Mix (7.6%)
datasets, establishing new benchmarks for TS-ASR. The proposed model will be
open-sourced through NVIDIA NeMo toolkit.
- Abstract(参考訳): 本稿では,ts-asr(single channel target-speaker automatic speech recognition)のための非自己回帰型エンドツーエンド時間周波数ドメインアーキテクチャであるconf-tsasrを提案する。
このモデルは、TitaNetベースの話者埋め込みモジュール、Conformerベースのマスキング、およびASRモジュールで構成されている。
これらのモジュールは、他の話者からの音声を無視しながら、ターゲット話者を転写するように共同最適化されている。
トレーニングには、Connectionist Temporal Classification (CTC) の損失を使用し、スケール不変のスペクトログラム再構成損失を導入し、モデルがターゲット話者のスペクトログラムを混合から分離することを奨励する。
WSJ0-2mix-extr (4.2%) 上で, 最先端のターゲット話者単語誤り率 (TS-WER) を求める。
さらに、WSJ0-3mix-extr (12.4%)、LibriSpeech2Mix (4.2%)、LibriSpeech3Mix (7.6%)のデータセットを初めてTS-WERで報告し、TS-ASRの新しいベンチマークを確立した。
提案されたモデルはNVIDIA NeMoツールキットを通じてオープンソース化される。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Convoifilter: A case study of doing cocktail party speech recognition [59.80042864360884]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-22T12:09:30Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - End-to-End Speaker-Attributed ASR with Transformer [41.7739129773237]
本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
論文 参考訳(メタデータ) (2021-04-05T19:54:15Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。