論文の概要: Streaming Multi-Talker ASR with Token-Level Serialized Output Training
- arxiv url: http://arxiv.org/abs/2202.00842v1
- Date: Wed, 2 Feb 2022 01:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 14:53:56.552643
- Title: Streaming Multi-Talker ASR with Token-Level Serialized Output Training
- Title(参考訳): トークンレベルのシリアライズアウトプットトレーニングを備えたストリーミングマルチトーカasr
- Authors: Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang,
Yashesh Gaur, Zhuo Chen, Jinyu Li, Takuya Yoshioka
- Abstract要約: t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
- 参考スコア(独自算出の注目度): 53.11450530896623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a token-level serialized output training (t-SOT), a novel
framework for streaming multi-talker automatic speech recognition (ASR). Unlike
existing streaming multi-talker ASR models using multiple output layers, the
t-SOT model has only a single output layer that generates recognition tokens
(e.g., words, subwords) of multiple speakers in chronological order based on
their emission times. A special token that indicates the change of "virtual"
output channels is introduced to keep track of the overlapping utterances.
Compared to the prior streaming multi-talker ASR models, the t-SOT model has
the advantages of less inference cost and a simpler model architecture.
Moreover, in our experiments with LibriSpeechMix and LibriCSS datasets, the
t-SOT-based transformer transducer model achieves the state-of-the-art word
error rates by a significant margin to the prior results. For non-overlapping
speech, the t-SOT model is on par with a single-talker ASR model in terms of
both accuracy and computational cost, opening the door for deploying one model
for both single- and multi-talker scenarios.
- Abstract(参考訳): 本稿では,マルチトーカー自動音声認識(ASR)の新たなフレームワークであるトークンレベルシリアライズ出力トレーニング(t-SOT)を提案する。
複数の出力層を用いた既存のストリーミングマルチストーカーASRモデルとは異なり、t-SOTモデルは出力時間に基づいて複数の話者の認識トークン(単語、サブワードなど)を生成する単一の出力層しか持たない。
重複する発話を追跡するために、「仮想」出力チャネルの変更を示す特別なトークンが導入された。
従来のストリーミングマルチストーカーASRモデルと比較して、t-SOTモデルは推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
さらに、LibriSpeechMixおよびLibriCSSデータセットを用いた実験では、t-SOTベースのトランスデューサモデルにより、最先端の単語誤り率を先行結果と有意差で達成する。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面でシングルストーカーASRモデルと同等であり、シングルトーカーシナリオとマルチトーカーシナリオの両方に1つのモデルをデプロイする扉を開く。
関連論文リスト
- Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-30T17:29:25Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - VarArray Meets t-SOT: Advancing the State of the Art of Streaming
Distant Conversational Speech Recognition [36.580955189182404]
本稿では,任意の形状のマイクロホンアレイによってキャプチャされたマルチストーカー重畳音声のための新しいストリーミング自動音声認識(ASR)フレームワークを提案する。
我々のフレームワークであるt-SOT-VAは、配列幾何学非依存連続音声分離(VarArray)とトークンレベルシリアライズ出力トレーニング(t-SOT)に基づくストリーミングマルチストーカーASRという、独立に開発された2つの技術を活用している。
マルチディスタントにおけるAMI開発と評価セットに対して,最先端ワードエラー率13.7%,15.5%を実現している。
論文 参考訳(メタデータ) (2022-09-12T01:22:04Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - A Comparison of Label-Synchronous and Frame-Synchronous End-to-End
Models for Speech Recognition [35.14176176739817]
代表ラベル同期モデル(変換器)とソフトフレーム同期モデル(連続統合火炎モデル)を比較した。
3つの公開データセットと12000時間のトレーニングデータを持つ大規模データセットの結果から,2種類のモデルが同期モードと整合したそれぞれにメリットがあることが分かる。
論文 参考訳(メタデータ) (2020-05-20T15:10:35Z) - Serialized Output Training for End-to-End Overlapped Speech Recognition [35.894025054676696]
逐次出力訓練(SOT)はマルチ話者重畳音声認識のための新しいフレームワークである。
SOTは、複数の話者の書き起こしを次々と生成する出力層が1つしかないモデルを使用する。
SOTモデルは、PITモデルよりも話者の変動数で重なり合った音声を転写可能であることを示す。
論文 参考訳(メタデータ) (2020-03-28T02:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。