論文の概要: Separator-Transducer-Segmenter: Streaming Recognition and Segmentation
of Multi-party Speech
- arxiv url: http://arxiv.org/abs/2205.05199v1
- Date: Tue, 10 May 2022 22:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 20:01:32.588738
- Title: Separator-Transducer-Segmenter: Streaming Recognition and Segmentation
of Multi-party Speech
- Title(参考訳): セパレータ・トランスデューサ・セグメンタ:マルチパーティ音声のストリーム認識とセグメンテーション
- Authors: Ilya Sklyar, Anna Piunova, Christian Osendorfer
- Abstract要約: 重なり合う音声による多人数会話のストリーミング認識とセグメンテーションは、次世代音声アシスタントアプリケーションにとって不可欠である。
本研究では,従来のマルチターンリカレントニューラルネットワークトランスデューサ(MT-RNN-T)における課題を,新たなアプローチであるセパレータ-トランスデューサ-セグメンタ(STS)を用いて解決する。
最良モデルでは、4.6%の abs. turn counting accuracy improve と 17% rel. word error rate (WER) improve on LibriCSS dataset than the previously published work。
- 参考スコア(独自算出の注目度): 9.217215329418629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming recognition and segmentation of multi-party conversations with
overlapping speech is crucial for the next generation of voice assistant
applications. In this work we address its challenges discovered in the previous
work on multi-turn recurrent neural network transducer (MT-RNN-T) with a novel
approach, separator-transducer-segmenter (STS), that enables tighter
integration of speech separation, recognition and segmentation in a single
model. First, we propose a new segmentation modeling strategy through
start-of-turn and end-of-turn tokens that improves segmentation without
recognition accuracy degradation. Second, we further improve both speech
recognition and segmentation accuracy through an emission regularization
method, FastEmit, and multi-task training with speech activity information as
an additional training signal. Third, we experiment with end-of-turn emission
latency penalty to improve end-point detection for each speaker turn. Finally,
we establish a novel framework for segmentation analysis of multi-party
conversations through emission latency metrics. With our best model, we report
4.6% abs. turn counting accuracy improvement and 17% rel. word error rate (WER)
improvement on LibriCSS dataset compared to the previously published work.
- Abstract(参考訳): 重なり合う音声による多人数会話のストリーミング認識とセグメンテーションは、次世代音声アシスタントアプリケーションにとって不可欠である。
本研究では,従来のマルチターンリカレントニューラルネットワークトランスデューサ(MT-RNN-T)における課題に,音声分離,認識,セグメンテーションのより緊密な統合を可能にする新しいアプローチであるセパレータ-トランスデューサ-セグメンタ(STS)を用いて対処する。
まず,認識精度の低下を伴わずにセグメンテーションを改善するための,ターン開始とターン終了のトークンによる新しいセグメンテーションモデリング手法を提案する。
第2に,エミッション正規化法,ファシミット法,および音声活動情報を付加訓練信号とするマルチタスクトレーニングにより,音声認識とセグメンテーションの精度をさらに向上させる。
第3に、各話者ターンにおける終端検出を改善するために、終端発光遅延ペナルティを実験した。
最後に,エミッションレイテンシ指標による多人数会話のセグメンテーション分析のための新しいフレームワークを構築した。
ベストモデルでは4.6%のabsを報告します。
ターンカウント精度の向上と17%のrel。
ワードエラー率(WER)は、以前公開された作業と比較して、LibriCSSデータセットで改善されている。
関連論文リスト
- Acquiring Pronunciation Knowledge from Transcribed Speech Audio via Multi-task Learning [23.907448315388294]
マルチタスク学習(MTL)に基づく追加訓練源として書き起こし音声を利用する方法を提案する。
実験の結果, ベースラインMTL法と比較して, MTL法ではPERを2.5%から1.6%に削減できることがわかった。
論文 参考訳(メタデータ) (2024-09-15T23:00:54Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR [54.64158282822995]
教師なしASRにおける反復訓練を用いたREBORN, Reinforcement-Learned boundaryを提案する。
ReBORNは、音声信号におけるセグメント構造の境界を予測するセグメンテーションモデルのトレーニングと、セグメンテーションモデルによってセグメント化された音声特徴である音素予測モデルのトレーニングを交互に行い、音素転写を予測する。
我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-02-06T13:26:19Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。