論文の概要: Continuous Speech Separation with Conformer
- arxiv url: http://arxiv.org/abs/2008.05773v2
- Date: Thu, 22 Oct 2020 12:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:40:51.911301
- Title: Continuous Speech Separation with Conformer
- Title(参考訳): コンフォーメータを用いた連続音声分離
- Authors: Sanyuan Chen, Yu Wu, Zhuo Chen, Jian Wu, Jinyu Li, Takuya Yoshioka,
Chengyi Wang, Shujie Liu, Ming Zhou
- Abstract要約: 分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
- 参考スコア(独自算出の注目度): 60.938212082732775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous speech separation plays a vital role in complicated speech related
tasks such as conversation transcription. The separation model extracts a
single speaker signal from a mixed speech. In this paper, we use transformer
and conformer in lieu of recurrent neural networks in the separation system, as
we believe capturing global information with the self-attention based method is
crucial for the speech separation. Evaluating on the LibriCSS dataset, the
conformer separation model achieves state of the art results, with a relative
23.5% word error rate (WER) reduction from bi-directional LSTM (BLSTM) in the
utterance-wise evaluation and a 15.4% WER reduction in the continuous
evaluation.
- Abstract(参考訳): 連続音声分離は、会話の書き起こしのような複雑な音声関連タスクにおいて重要な役割を果たす。
分離モデルは、混合音声から単一の話者信号を抽出する。
本稿では,自己照査に基づく手法でグローバル情報を収集することが音声分離に不可欠であると考えるため,分離システムにおける再帰的ニューラルネットワークの代わりにトランスフォーマとコンフォーマを用いる。
LibriCSSデータセットに基づいて、コンバータ分離モデルは、発話評価における双方向LSTM(BLSTM)からの単語誤り率(WER)の相対23.5%、連続評価における15.4%のWERの削減という、技術結果の状態を達成する。
関連論文リスト
- Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - On End-to-end Multi-channel Time Domain Speech Separation in Reverberant
Environments [33.79711018198589]
本稿では,残響環境におけるマルチチャンネル時間領域音声分離手法を提案する。
完全な畳み込みニューラルネットワーク構造は、複数のマイク記録から直接音声を分離するために使われてきた。
残響が空間的特徴抽出に与える影響を低減するため, 残響前処理法が適用された。
論文 参考訳(メタデータ) (2020-11-11T18:25:07Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。