論文の概要: Simulating realistic speech overlaps improves multi-talker ASR
- arxiv url: http://arxiv.org/abs/2210.15715v1
- Date: Thu, 27 Oct 2022 18:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:01:06.639192
- Title: Simulating realistic speech overlaps improves multi-talker ASR
- Title(参考訳): リアル音声重複のシミュレーションによるマルチトーカーASRの改良
- Authors: Muqiao Yang, Naoyuki Kanda, Xiaofei Wang, Jian Wu, Sunit Sivasankaran,
Zhuo Chen, Jinyu Li, Takuya Yoshioka
- Abstract要約: 本稿では,複数話者の重なり合う音声を現実的な音声重なりでシミュレートする改良手法を提案する。
この表現により、N-gramのような統計言語モデルに基づいて、実際の会話から重なり合う音声パターンを学習することができる。
実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。
- 参考スコア(独自算出の注目度): 36.39193360559079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-talker automatic speech recognition (ASR) has been studied to generate
transcriptions of natural conversation including overlapping speech of multiple
speakers. Due to the difficulty in acquiring real conversation data with
high-quality human transcriptions, a na\"ive simulation of multi-talker speech
by randomly mixing multiple utterances was conventionally used for model
training. In this work, we propose an improved technique to simulate
multi-talker overlapping speech with realistic speech overlaps, where an
arbitrary pattern of speech overlaps is represented by a sequence of discrete
tokens. With this representation, speech overlapping patterns can be learned
from real conversations based on a statistical language model, such as N-gram,
which can be then used to generate multi-talker speech for training. In our
experiments, multi-talker ASR models trained with the proposed method show
consistent improvement on the word error rates across multiple datasets.
- Abstract(参考訳): 複数の話者の重複音声を含む自然な会話の書き起こしを生成するために、マルチトーカー自動音声認識(asr)が研究されている。
ハイクオリティな人間の書き起こしによる実会話データの取得が困難であることから,複数発話をランダムに混合したマルチトーカ音声のna\"iveシミュレーションをモデル学習に用いた。
そこで本研究では,任意の音声重複パターンを離散トークン列で表現し,複数話者重複音声を現実的な音声重複でシミュレートする改良手法を提案する。
この表現により、N-gramのような統計言語モデルに基づいて実際の会話から音声重複パターンを学習し、訓練用マルチトーク音声を生成することができる。
実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。
関連論文リスト
- MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Unified Autoregressive Modeling for Joint End-to-End Multi-Talker
Overlapped Speech Recognition and Speaker Attribute Estimation [26.911867847630187]
本稿では,ASR(Automatic Speech Recognition)システムを用いた単一チャンネルマルチストーカーのモデリング手法を提案する。
ASRと話者属性推定を重畳した連立エンドツーエンドマルチストーカーに対する統合自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2021-07-04T05:47:18Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。