論文の概要: Multi-turn RNN-T for streaming recognition of multi-party speech
- arxiv url: http://arxiv.org/abs/2112.10200v1
- Date: Sun, 19 Dec 2021 17:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 17:29:59.814478
- Title: Multi-turn RNN-T for streaming recognition of multi-party speech
- Title(参考訳): 多人数音声のストリーミング認識のためのマルチターンRNN-T
- Authors: Ilya Sklyar, Anna Piunova, Xianrui Zheng, Yulan Liu
- Abstract要約: この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
- 参考スコア(独自算出の注目度): 2.899379040028688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) of single channel far-field recordings
with an unknown number of speakers is traditionally tackled by cascaded
modules. Recent research shows that end-to-end (E2E) multi-speaker ASR models
can achieve superior recognition accuracy compared to modular systems. However,
these models do not ensure real-time applicability due to their dependency on
full audio context. This work takes real-time applicability as the first
priority in model design and addresses a few challenges in previous work on
multi-speaker recurrent neural network transducer (MS-RNN-T). First, we
introduce on-the-fly overlapping speech simulation during training, yielding
14% relative word error rate (WER) improvement on LibriSpeechMix test set.
Second, we propose a novel multi-turn RNN-T (MT-RNN-T) model with an
overlap-based target arrangement strategy that generalizes to an arbitrary
number of speakers without changes in the model architecture. We investigate
the impact of the maximum number of speakers seen during training on MT-RNN-T
performance on LibriCSS test set, and report 28% relative WER improvement over
the two-speaker MS-RNN-T. Third, we experiment with a rich transcription
strategy for joint recognition and segmentation of multi-party speech. Through
an in-depth analysis, we discuss potential pitfalls of the proposed system as
well as promising future research directions.
- Abstract(参考訳): 未知の話者数を持つ単一チャネル遠距離録音の音声認識(ASR)は、伝統的にカスケードモジュールによって取り組まれる。
近年の研究では、エンドツーエンド(e2e)マルチスピーカーasrモデルがモジュラーシステムよりも優れた認識精度を達成できることが示されている。
しかし、これらのモデルは完全なオーディオコンテキストに依存するため、リアルタイムな適用性が保証されない。
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカーリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
まず,訓練中にオンザフライオーバラップ音声シミュレーションを導入し,librispeechmixテストセットにおいて14%の相対単語誤り率(wer)改善を実現した。
第2に,モデルアーキテクチャの変更を伴わずに任意の話者に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
学習中の最大話者数がmt-rnn-t性能に及ぼす影響について検討し,ms-rnn-tに対する28%の相対wer改善を報告した。
第3に,多人数音声の協調認識とセグメンテーションのためのリッチな転写戦略の実験を行った。
詳細な分析を通じて,提案システムの潜在的な落とし穴と今後の研究方向性について考察する。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Multi-task Language Modeling for Improving Speech Recognition of Rare
Words [14.745696312889763]
音声認識性能を向上させるために,意図やスロット予測などのセマンティックターゲットを利用するマルチタスク学習を用いた第2パスシステムを提案する。
マルチタスク LM を用いた ASR システムは,レアワード認識のための RNN Transducer のみの ASR ベースラインと比較して,4.6% の WERR 推論を示す。
論文 参考訳(メタデータ) (2020-11-23T20:40:44Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。