論文の概要: Streaming end-to-end multi-talker speech recognition
- arxiv url: http://arxiv.org/abs/2011.13148v2
- Date: Fri, 12 Mar 2021 19:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 12:17:21.924347
- Title: Streaming end-to-end multi-talker speech recognition
- Title(参考訳): ストリーム・エンド・エンド複数話者音声認識
- Authors: Liang Lu, Naoyuki Kanda, Jinyu Li, Yifan Gong
- Abstract要約: 本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
- 参考スコア(独自算出の注目度): 34.76106500736099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end multi-talker speech recognition is an emerging research trend in
the speech community due to its vast potential in applications such as
conversation and meeting transcriptions. To the best of our knowledge, all
existing research works are constrained in the offline scenario. In this work,
we propose the Streaming Unmixing and Recognition Transducer (SURT) for
end-to-end multi-talker speech recognition. Our model employs the Recurrent
Neural Network Transducer (RNN-T) as the backbone that can meet various latency
constraints. We study two different model architectures that are based on a
speaker-differentiator encoder and a mask encoder respectively. To train this
model, we investigate the widely used Permutation Invariant Training (PIT)
approach and the Heuristic Error Assignment Training (HEAT) approach. Based on
experiments on the publicly available LibriSpeechMix dataset, we show that HEAT
can achieve better accuracy compared with PIT, and the SURT model with 150
milliseconds algorithmic latency constraint compares favorably with the offline
sequence-to-sequence based baseline model in terms of accuracy.
- Abstract(参考訳): エンド・ツー・エンドのマルチトーカー音声認識は、会話や会議の書き起こしなどの応用において大きな可能性を秘めた、音声コミュニティにおける新たな研究トレンドである。
私たちの知る限りでは、既存の研究はすべてオフラインのシナリオに制限されています。
本研究では,エンドツーエンドの複数話者音声認識のためのストリーム・アンミックス・アンド・認識変換器(SURT)を提案する。
本モデルでは,様々なレイテンシ制約を満たすバックボーンとして,recurrent neural network transducer (rnn-t)を用いる。
本研究では,話者微分器エンコーダとマスクエンコーダの2つの異なるモデルアーキテクチャについて検討する。
このモデルを訓練するために,pit(permutation invariant training)アプローチとheat(heuristic error assignment training)アプローチについて検討した。
公開されているLibriSpeechMixデータセットの実験から、HEATはPITと比較して精度が良く、150ミリ秒のアルゴリズム遅延制約を持つSURTモデルは、精度の観点から、オフラインシーケンスからシーケンスベースのベースラインモデルと良好に比較できることを示した。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。