論文の概要: Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition
- arxiv url: http://arxiv.org/abs/2309.08454v1
- Date: Fri, 15 Sep 2023 14:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:10:30.462518
- Title: Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition
- Title(参考訳): 会議音声認識のための連続音声分離支援ミキサーエンコーダ
- Authors: Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker,
Ralf Schl\"uter, Reinhold Haeb-Umbach
- Abstract要約: 音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
- 参考スコア(独自算出の注目度): 15.610658840718607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-life applications of automatic speech recognition (ASR) require
processing of overlapped speech. A commonmethod involves first separating the
speech into overlap-free streams and then performing ASR on the resulting
signals. Recently, the inclusion of a mixture encoder in the ASR model has been
proposed. This mixture encoder leverages the original overlapped speech to
mitigate the effect of artifacts introduced by the speech separation.
Previously, however, the method only addressed two-speaker scenarios. In this
work, we extend this approach to more natural meeting contexts featuring an
arbitrary number of speakers and dynamic overlaps. We evaluate the performance
using different speech separators, including the powerful TF-GridNet model. Our
experiments show state-of-the-art performance on the LibriCSS dataset and
highlight the advantages of the mixture encoder. Furthermore, they demonstrate
the strong separation of TF-GridNet which largely closes the gap between
previous methods and oracle separation.
- Abstract(参考訳): 自動音声認識(asr)の多くの実生活応用は重複音声認識の処理を必要とする。
共通メソッドは、まず音声を重複のないストリームに分離し、結果の信号に対してASRを実行する。
近年,asrモデルにおける混合エンコーダの導入が提案されている。
この混合エンコーダは、元の重複した音声を利用して、音声分離によってもたらされるアーティファクトの効果を緩和する。
しかし、従来は2つの話者のシナリオしか対応していなかった。
本稿では,このアプローチを,任意の話者数と動的重複を特徴とする,より自然なミーティングコンテキストに拡張する。
我々は、TF-GridNetモデルを含む異なる音声分離器を用いて性能を評価する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
さらに、tf-gridnetの強力な分離が示されており、これは以前のメソッドとoracleの分離のギャップをほとんど埋めている。
関連論文リスト
- TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Unified Modeling of Multi-Talker Overlapped Speech Recognition and
Diarization with a Sidecar Separator [42.8787280791491]
複数話者の重複した音声は,音声認識とダイアリゼーションにおいて重要な課題となる。
本稿では,単一話者の自動音声認識システムをマルチ話者に変換するコスト効率のよい手法を提案する。
ダイアリゼーションブランチをSidecarに組み込むことで、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを行う。
論文 参考訳(メタデータ) (2023-05-25T17:18:37Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。