論文の概要: Wavesplit: End-to-End Speech Separation by Speaker Clustering
- arxiv url: http://arxiv.org/abs/2002.08933v2
- Date: Thu, 2 Jul 2020 13:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:32:48.412914
- Title: Wavesplit: End-to-End Speech Separation by Speaker Clustering
- Title(参考訳): Wavesplit:話者クラスタリングによるエンドツーエンド音声分離
- Authors: Neil Zeghidour and David Grangier
- Abstract要約: 本稿では,エンドツーエンドのソース分離システムであるWavesplitを紹介する。
1つの混合から、モデルは各ソースの表現を推論し、各ソース信号を推定する。
Wavesplitは他の領域にも適用でき、胎児と母体の心拍数を単一の腹部心電図から分離する。
- 参考スコア(独自算出の注目度): 35.573006591664864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Wavesplit, an end-to-end source separation system. From a single
mixture, the model infers a representation for each source and then estimates
each source signal given the inferred representations. The model is trained to
jointly perform both tasks from the raw waveform. Wavesplit infers a set of
source representations via clustering, which addresses the fundamental
permutation problem of separation. For speech separation, our sequence-wide
speaker representations provide a more robust separation of long, challenging
recordings compared to prior work. Wavesplit redefines the state-of-the-art on
clean mixtures of 2 or 3 speakers (WSJ0-2/3mix), as well as in noisy and
reverberated settings (WHAM/WHAMR). We also set a new benchmark on the recent
LibriMix dataset. Finally, we show that Wavesplit is also applicable to other
domains, by separating fetal and maternal heart rates from a single abdominal
electrocardiogram.
- Abstract(参考訳): エンド・ツー・エンドのソース分離システムwavesplitを紹介する。
単一の混合から、モデルは各ソースの表現を推論し、推論された表現が与えられた各ソース信号を推定する。
モデルは、生の波形から両方のタスクを共同で実行するように訓練される。
Wavesplitはクラスタリングを通じてソース表現のセットを推論し、分離の基本的な置換問題に対処する。
音声分離では, 先行処理に比べて, 連続話者表現の方が, 長大かつ難解な録音をより堅牢に分離することができる。
Wavesplitは、2または3つの話者(WSJ0-2/3mix)の清潔な混合(WHAM/WHAMR)に対して、ノイズと残響設定(WHAM/WHAMR)を再定義する。
また、最近のLibriMixデータセットに新しいベンチマークを設定しました。
最後に,1回の腹部心電図から胎児と母体心拍数を分離することにより,Wavesplitは他の領域にも適用可能であることを示す。
関連論文リスト
- A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - UNSSOR: Unsupervised Neural Speech Separation by Leveraging
Over-determined Training Mixtures [60.879679764741624]
残響状態においては、各マイクは異なる場所で複数の話者の混合信号を取得する。
我々は、$textbfu$nsupervised $textbfn$euralのアルゴリズムUNSSORを提案する。
この損失は、教師なし話者の分離を促進することが示される。
論文 参考訳(メタデータ) (2023-05-31T17:28:02Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z) - Self-Supervised Learning from Automatically Separated Sound Scenes [38.71803524843168]
本稿では,教師なしの自動音声分離を用いてラベルなし音声シーンを意味的にリンクされたビューに分解する。
入力混合物と自動的に分離された出力を関連付ける学習は、過去のアプローチよりも強い表現を生み出す。
論文 参考訳(メタデータ) (2021-05-05T15:37:17Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。