論文の概要: Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in
High-order Latent Domain
- arxiv url: http://arxiv.org/abs/2110.04791v1
- Date: Sun, 10 Oct 2021 13:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 20:55:11.978813
- Title: Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in
High-order Latent Domain
- Title(参考訳): 高次潜在領域における細粒度符号化によるステップワイズ音声分離ネットワーク
- Authors: Zengwei Yao, Wenjie Pei, Fanglin Chen, Guangming Lu, and David Zhang
- Abstract要約: 本稿では,粗大な分離フレームワークに従うSRSSN(Stepwise-Refining Speech separation Network)を提案する。
まず1次潜在領域を学び、符号化空間を定義し、粗い位相で大まかな分離を行う。
その後、既存の潜伏領域の各基底関数に沿って新しい潜伏ドメインを学び、精製フェーズで高次潜伏ドメインを得る。
- 参考スコア(独自算出の注目度): 34.23260020137834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The crux of single-channel speech separation is how to encode the mixture of
signals into such a latent embedding space that the signals from different
speakers can be precisely separated. Existing methods for speech separation
either transform the speech signals into frequency domain to perform separation
or seek to learn a separable embedding space by constructing a latent domain
based on convolutional filters. While the latter type of methods learning an
embedding space achieves substantial improvement for speech separation, we
argue that the embedding space defined by only one latent domain does not
suffice to provide a thoroughly separable encoding space for speech separation.
In this paper, we propose the Stepwise-Refining Speech Separation Network
(SRSSN), which follows a coarse-to-fine separation framework. It first learns a
1-order latent domain to define an encoding space and thereby performs a rough
separation in the coarse phase. Then the proposed SRSSN learns a new latent
domain along each basis function of the existing latent domain to obtain a
high-order latent domain in the refining phase, which enables our model to
perform a refining separation to achieve a more precise speech separation. We
demonstrate the effectiveness of our SRSSN by conducting extensive experiments,
including speech separation in a clean (noise-free) setting on WSJ0-2/3mix
datasets as well as in noisy/reverberant settings on WHAM!/WHAMR! datasets.
Furthermore, we also perform experiments of speech recognition on separated
speech signals by our model to evaluate the performance of speech separation
indirectly.
- Abstract(参考訳): 単一チャネル音声分離のcruxは、異なる話者からの信号を正確に分離できるような潜在埋め込み空間に信号の混合を符号化する方法である。
既存の音声分離法は、音声信号を周波数領域に変換して分離を行うか、畳み込みフィルタに基づく潜在領域を構築して分離可能な埋め込み空間を学習する。
埋め込み空間を学習する後者の方法は音声分離の大幅な改善を実現するが、潜在領域が1つだけ定義した埋め込み空間は音声分離のための完全に分離可能な符号化空間を提供するには不十分である。
本稿では,粗大な分離枠組みに従うSRSSN(Stepwise-Refining Speech separated Network)を提案する。
まず1次潜在領域を学習して符号化空間を定義し、粗い位相で粗い分離を行う。
そして、提案するsrssnは、既存の潜在ドメインの各基底関数に沿って新たな潜在ドメインを学習し、精錬フェーズにおいて高次潜在ドメインを得る。
我々は、WSJ0-2/3mixデータセット上のクリーン(ノイズフリー)設定や、WHAM上のノイズ/残響設定など、広範な実験を行うことで、SRSSNの有効性を実証する。
WHAMR! データセット。
さらに,分離した音声信号に対する音声認識実験を行い,間接的に音声分離の性能を評価する。
関連論文リスト
- Speech Separation with Pretrained Frontend to Minimize Domain Mismatch [42.63061599979695]
音声分離は、個々の音声信号を音声混合物から分離しようとする。
ほとんどの分離モデルは、現実のパーティーシナリオでターゲット参照が利用できないため、合成データに基づいて訓練されている。
対象参照音声を必要とせずに混合データに露呈する自己教師付きドメイン不変プレトレーニング(DIP)を提案する。
論文 参考訳(メタデータ) (2024-11-05T13:30:27Z) - Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters [21.672683390080106]
複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
論文 参考訳(メタデータ) (2023-04-24T11:44:00Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - On End-to-end Multi-channel Time Domain Speech Separation in Reverberant
Environments [33.79711018198589]
本稿では,残響環境におけるマルチチャンネル時間領域音声分離手法を提案する。
完全な畳み込みニューラルネットワーク構造は、複数のマイク記録から直接音声を分離するために使われてきた。
残響が空間的特徴抽出に与える影響を低減するため, 残響前処理法が適用された。
論文 参考訳(メタデータ) (2020-11-11T18:25:07Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。