論文の概要: VarArray Meets t-SOT: Advancing the State of the Art of Streaming
Distant Conversational Speech Recognition
- arxiv url: http://arxiv.org/abs/2209.04974v1
- Date: Mon, 12 Sep 2022 01:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:50:16.942458
- Title: VarArray Meets t-SOT: Advancing the State of the Art of Streaming
Distant Conversational Speech Recognition
- Title(参考訳): VarArrayとt-SOT: 遠隔会話音声認識の最先端化
- Authors: Naoyuki Kanda, Jian Wu, Xiaofei Wang, Zhuo Chen, Jinyu Li, Takuya
Yoshioka
- Abstract要約: 本稿では,任意の形状のマイクロホンアレイによってキャプチャされたマルチストーカー重畳音声のための新しいストリーミング自動音声認識(ASR)フレームワークを提案する。
我々のフレームワークであるt-SOT-VAは、配列幾何学非依存連続音声分離(VarArray)とトークンレベルシリアライズ出力トレーニング(t-SOT)に基づくストリーミングマルチストーカーASRという、独立に開発された2つの技術を活用している。
マルチディスタントにおけるAMI開発と評価セットに対して,最先端ワードエラー率13.7%,15.5%を実現している。
- 参考スコア(独自算出の注目度): 36.580955189182404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel streaming automatic speech recognition (ASR)
framework for multi-talker overlapping speech captured by a distant microphone
array with an arbitrary geometry. Our framework, named t-SOT-VA, capitalizes on
independently developed two recent technologies; array-geometry-agnostic
continuous speech separation, or VarArray, and streaming multi-talker ASR based
on token-level serialized output training (t-SOT). To combine the best of both
technologies, we newly design a t-SOT-based ASR model that generates a
serialized multi-talker transcription based on two separated speech signals
from VarArray. We also propose a pre-training scheme for such an ASR model
where we simulate VarArray's output signals based on monaural single-talker ASR
training data. Conversation transcription experiments using the AMI meeting
corpus show that the system based on the proposed framework significantly
outperforms conventional ones. Our system achieves the state-of-the-art word
error rates of 13.7% and 15.5% for the AMI development and evaluation sets,
respectively, in the multiple-distant-microphone setting while retaining the
streaming inference capability.
- Abstract(参考訳): 本稿では,遠隔マイクロホンアレーで任意の形状のマルチトーカ重畳音声に対して,ストリーミング型自動音声認識(asr)フレームワークを提案する。
このフレームワークはt-sot-vaと名付けられ、アレイジオメトリに依存しない連続音声分離(vararray)と、トークンレベルシリアライズ出力トレーニング(t-sot)に基づくマルチトーカasrの2つを独自に開発した。
両技術を最大限に組み合わせるために,VarArray から分離した2つの音声信号に基づいて,連続化されたマルチストーカーの書き起こしを生成する t-SOT ベースの ASR モデルを新たに設計した。
また,単声単発asr学習データに基づいてvararrayの出力信号をシミュレートするasrモデルのための事前学習方式を提案する。
amiミーティングコーパスを用いた会話音声認識実験では,提案手法に基づくシステムが従来のコーパスよりも有意に優れていた。
本システムでは, ストリーミング推論能力を維持しつつ, マルチディスタント・マイクロホン設定において, AMI開発および評価セットに対して, 13.7%, 15.5%の単語誤り率を実現する。
関連論文リスト
- Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-30T17:29:25Z) - Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - VarArray: Array-Geometry-Agnostic Continuous Speech Separation [26.938313513582642]
マイクロホンアレイを用いた連続音声分離は、自然な会話の書き起こしにおける音声重なり問題に対処する上で有望であることが示された。
本稿では,アレージオメトリーに依存しない音声分離ニューラルネットワークモデルであるVarArrayを提案する。
論文 参考訳(メタデータ) (2021-10-12T05:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。