論文の概要: Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
- arxiv url: http://arxiv.org/abs/2401.04152v1
- Date: Mon, 8 Jan 2024 16:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:48:18.922608
- Title: Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
- Title(参考訳): マルチ話者音声認識のためのクロススピーカー符号化ネットワーク
- Authors: Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying
Liu, Helen Meng
- Abstract要約: クロスミクススピーカを提案する。
話者間の表現を集約することでSIMOモデルの限界に対処するネットワーク。
CSE-SOT モデルは,単語誤り率 (WER) をSOT モデルと比較して10%削減し,ハイオーバーラップ音声では16%削減する。
- 参考スコア(独自算出の注目度): 78.73547416883987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end multi-talker speech recognition has garnered great interest as an
effective approach to directly transcribe overlapped speech from multiple
speakers. Current methods typically adopt either 1) single-input
multiple-output (SIMO) models with a branched encoder, or 2) single-input
single-output (SISO) models based on attention-based encoder-decoder
architecture with serialized output training (SOT). In this work, we propose a
Cross-Speaker Encoding (CSE) network to address the limitations of SIMO models
by aggregating cross-speaker representations. Furthermore, the CSE model is
integrated with SOT to leverage both the advantages of SIMO and SISO while
mitigating their drawbacks. To the best of our knowledge, this work represents
an early effort to integrate SIMO and SISO for multi-talker speech recognition.
Experiments on the two-speaker LibrispeechMix dataset show that the CES model
reduces word error rate (WER) by 8% over the SIMO baseline. The CSE-SOT model
reduces WER by 10% overall and by 16% on high-overlap speech compared to the
SOT model.
- Abstract(参考訳): 複数話者から重畳された音声を直接書き起こす効果的なアプローチとして,エンドツーエンドのマルチトーカー音声認識が注目されている。
現在の手法は
1)分岐エンコーダを持つ単一入力多重出力(simo)モデル、または
2)serialized output training (sot)を用いた注意ベースエンコーダ・デコーダアーキテクチャに基づく単一入力単一出力(siso)モデル。
本研究では,話者間表現を集約することでSIMOモデルの限界に対処するクロススピーカ符号化(CSE)ネットワークを提案する。
さらに、CSEモデルはSOTと統合され、SIMOとSISOの利点を両立させながら欠点を緩和する。
我々の知る限り、この研究はSIMOとSISOを統合したマルチトーカー音声認識の初期の試みである。
2話者LibrispeechMixデータセットの実験では、CESモデルはSIMOベースラインよりもワードエラー率(WER)を8%削減している。
CSE-SOTモデルは、SOTモデルと比較して、WER全体を10%減らし、16%減らす。
関連論文リスト
- Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-30T17:29:25Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Serialized Output Training for End-to-End Overlapped Speech Recognition [35.894025054676696]
逐次出力訓練(SOT)はマルチ話者重畳音声認識のための新しいフレームワークである。
SOTは、複数の話者の書き起こしを次々と生成する出力層が1つしかないモデルを使用する。
SOTモデルは、PITモデルよりも話者の変動数で重なり合った音声を転写可能であることを示す。
論文 参考訳(メタデータ) (2020-03-28T02:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。