論文の概要: Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR
- arxiv url: http://arxiv.org/abs/2006.02786v3
- Date: Mon, 21 Dec 2020 12:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 12:41:30.943192
- Title: Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR
- Title(参考訳): 未知音源数に対するマルチストーカーASR:ソースカウントと分離とASRの併用訓練
- Authors: Thilo von Neumann, Christoph Boeddeker, Lukas Drude, Keisuke
Kinoshita, Marc Delcroix, Tomohiro Nakatani, Reinhold Haeb-Umbach
- Abstract要約: 能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
- 参考スコア(独自算出の注目度): 91.87500543591945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most approaches to multi-talker overlapped speech separation and recognition
assume that the number of simultaneously active speakers is given, but in
realistic situations, it is typically unknown. To cope with this, we extend an
iterative speech extraction system with mechanisms to count the number of
sources and combine it with a single-talker speech recognizer to form the first
end-to-end multi-talker automatic speech recognition system for an unknown
number of active speakers. Our experiments show very promising performance in
counting accuracy, source separation and speech recognition on simulated clean
mixtures from WSJ0-2mix and WSJ0-3mix. Among others, we set a new
state-of-the-art word error rate on the WSJ0-2mix database. Furthermore, our
system generalizes well to a larger number of speakers than it ever saw during
training, as shown in experiments with the WSJ0-4mix database.
- Abstract(参考訳): 複数話者の重複した音声分離と認識に対するほとんどのアプローチは、同時にアクティブな話者の数が与えられると仮定しているが、現実の状況では、一般的には未知である。
そこで本研究では,音源数をカウントして単一話者音声認識器と組み合わせ,未知数のアクティブ話者に対して第1のエンド・ツー・エンドのマルチトーカ自動音声認識システムを構築する機構を付加した反復音声抽出システムを拡張する。
実験の結果,WSJ0-2mix と WSJ0-3mix を模擬したクリーンミックスの精度,音源分離,音声認識において有望な性能を示した。
その中でも,wsj0-2mixデータベースに最新の単語誤り率を設定した。
さらに,本システムは,WSJ0-4mixデータベースを用いた実験で示すように,トレーニング中よりも多くの話者に適応する。
関連論文リスト
- Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Time-Domain Speech Extraction with Spatial Information and Multi Speaker
Conditioning Mechanism [27.19635746008699]
混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。
2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
論文 参考訳(メタデータ) (2021-02-07T10:11:49Z) - Multi-task Language Modeling for Improving Speech Recognition of Rare
Words [14.745696312889763]
音声認識性能を向上させるために,意図やスロット予測などのセマンティックターゲットを利用するマルチタスク学習を用いた第2パスシステムを提案する。
マルチタスク LM を用いた ASR システムは,レアワード認識のための RNN Transducer のみの ASR ベースラインと比較して,4.6% の WERR 推論を示す。
論文 参考訳(メタデータ) (2020-11-23T20:40:44Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。