論文の概要: Serialized Output Training for End-to-End Overlapped Speech Recognition
- arxiv url: http://arxiv.org/abs/2003.12687v2
- Date: Sat, 8 Aug 2020 20:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 23:54:48.284362
- Title: Serialized Output Training for End-to-End Overlapped Speech Recognition
- Title(参考訳): エンドツーエンド重複音声認識のための逐次出力訓練
- Authors: Naoyuki Kanda, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Takuya Yoshioka
- Abstract要約: 逐次出力訓練(SOT)はマルチ話者重畳音声認識のための新しいフレームワークである。
SOTは、複数の話者の書き起こしを次々と生成する出力層が1つしかないモデルを使用する。
SOTモデルは、PITモデルよりも話者の変動数で重なり合った音声を転写可能であることを示す。
- 参考スコア(独自算出の注目度): 35.894025054676696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes serialized output training (SOT), a novel framework for
multi-speaker overlapped speech recognition based on an attention-based
encoder-decoder approach. Instead of having multiple output layers as with the
permutation invariant training (PIT), SOT uses a model with only one output
layer that generates the transcriptions of multiple speakers one after another.
The attention and decoder modules take care of producing multiple
transcriptions from overlapped speech. SOT has two advantages over PIT: (1) no
limitation in the maximum number of speakers, and (2) an ability to model the
dependencies among outputs for different speakers. We also propose a simple
trick that allows SOT to be executed in $O(S)$, where $S$ is the number of the
speakers in the training sample, by using the start times of the constituent
source utterances. Experimental results on LibriSpeech corpus show that the SOT
models can transcribe overlapped speech with variable numbers of speakers
significantly better than PIT-based models. We also show that the SOT models
can accurately count the number of speakers in the input audio.
- Abstract(参考訳): 本稿では,アテンションベースエンコーダ・デコーダアプローチに基づくマルチ話者重畳音声認識のための新しいフレームワークであるシリアライズアウトプットトレーニング(SOT)を提案する。
置換不変トレーニング(PIT)のように複数の出力層を持つ代わりに、SOTは複数の話者の書き起こしを次々と生成する1つの出力層のみを持つモデルを使用する。
注意とデコーダモジュールは重複した音声から複数の転写を生成する。
SOT は PIT に対して,(1) 話者の最大数に制限がない,(2) 話者間の依存関係をモデル化できる,という2つの利点がある。
また,sot を $o(s)$ で実行可能にする簡単なトリックを提案する。ここでは,構成元発話の開始時刻を用いて,トレーニングサンプル内の話者数を $s$ とする。
LibriSpeech corpus の実験結果から,SOT モデルでは重なり合った音声を PIT ベースモデルよりもはるかに多くの話者で書き起こせることがわかった。
また、SOTモデルが入力音声中の話者数を正確にカウントできることを示す。
関連論文リスト
- Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。