論文の概要: A Sidecar Separator Can Convert a Single-Speaker Speech Recognition
System to a Multi-Speaker One
- arxiv url: http://arxiv.org/abs/2302.09908v1
- Date: Mon, 20 Feb 2023 11:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 15:42:38.985832
- Title: A Sidecar Separator Can Convert a Single-Speaker Speech Recognition
System to a Multi-Speaker One
- Title(参考訳): サイドカー分離器は、シングルスピーカー音声認識システムをマルチスピーカーに変換できる
- Authors: Lingwei Meng, Jiawen Kang, Mingyu Cui, Yuejiao Wang, Xixin Wu, Helen
Meng
- Abstract要約: 我々は,多話者シナリオのためのよく訓練されたASRモデルを実現するために,サイドカーセパレータを開発した。
提案手法は,2話者混合LibriMixデータセットにおいて,従来の最先端技術よりも大きなマージンを達成している。
- 参考スコア(独自算出の注目度): 40.16292149818563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although automatic speech recognition (ASR) can perform well in common
non-overlapping environments, sustaining performance in multi-speaker
overlapping speech recognition remains challenging. Recent research revealed
that ASR model's encoder captures different levels of information with
different layers -- the lower layers tend to have more acoustic information,
and the upper layers more linguistic. This inspires us to develop a Sidecar
separator to empower a well-trained ASR model for multi-speaker scenarios by
separating the mixed speech embedding between two suitable layers. We
experimented with a wav2vec 2.0-based ASR model with a Sidecar mounted. By
freezing the parameters of the original model and training only the Sidecar
(8.7 M, 8.4% of all parameters), the proposed approach outperforms the previous
state-of-the-art by a large margin for the 2-speaker mixed LibriMix dataset,
reaching a word error rate (WER) of 10.36%; and obtains comparable results
(7.56%) for LibriSpeechMix dataset when limited training.
- Abstract(参考訳): 自動音声認識(asr)は非重複環境において良好に機能するが,複数話者重畳音声認識の性能維持はいまだに困難である。
最近の研究では、ASRモデルのエンコーダが異なるレイヤで異なるレベルの情報をキャプチャすることが明らかになっている。
これにより,2つの適切な層間に混在する混合音声を分離することにより,多話者シナリオのためのよく訓練されたASRモデルを実現するためのサイドカーセパレータを開発することができる。
我々はサイドカー搭載のwav2vec 2.0ベースのasrモデルを実験した。
元のモデルのパラメータを凍結し,Sidecar(全パラメータの8.7M,8.4%)のみのトレーニングを行うことで,提案手法は,2話者混合LibriMixデータセットの差を大きく上回り,単語誤り率(WER)が10.36%に達し,限られたトレーニングでLibriSpeechMixデータセットに匹敵する結果(7.56%)が得られる。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Unified Modeling of Multi-Talker Overlapped Speech Recognition and
Diarization with a Sidecar Separator [42.8787280791491]
複数話者の重複した音声は,音声認識とダイアリゼーションにおいて重要な課題となる。
本稿では,単一話者の自動音声認識システムをマルチ話者に変換するコスト効率のよい手法を提案する。
ダイアリゼーションブランチをSidecarに組み込むことで、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを行う。
論文 参考訳(メタデータ) (2023-05-25T17:18:37Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Supervised Speaker Embedding De-Mixing in Two-Speaker Environment [37.27421131374047]
音源分離のような信号空間で2つの話者信号を分離する代わりに,話者埋め込み型デミックス方式を提案する。
提案手法は、埋め込み空間における2つの話者信号と異なる話者特性を分離する。
論文 参考訳(メタデータ) (2020-01-14T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。