論文の概要: UNSSOR: Unsupervised Neural Speech Separation by Leveraging
Over-determined Training Mixtures
- arxiv url: http://arxiv.org/abs/2305.20054v2
- Date: Sun, 29 Oct 2023 14:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:51:42.767130
- Title: UNSSOR: Unsupervised Neural Speech Separation by Leveraging
Over-determined Training Mixtures
- Title(参考訳): unssor: 過剰な訓練混合物を利用した教師なしニューラル音声分離
- Authors: Zhong-Qiu Wang and Shinji Watanabe
- Abstract要約: 残響状態においては、各マイクは異なる場所で複数の話者の混合信号を取得する。
我々は、$textbfu$nsupervised $textbfn$euralのアルゴリズムUNSSORを提案する。
この損失は、教師なし話者の分離を促進することが示される。
- 参考スコア(独自算出の注目度): 60.879679764741624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reverberant conditions with multiple concurrent speakers, each microphone
acquires a mixture signal of multiple speakers at a different location. In
over-determined conditions where the microphones out-number speakers, we can
narrow down the solutions to speaker images and realize unsupervised speech
separation by leveraging each mixture signal as a constraint (i.e., the
estimated speaker images at a microphone should add up to the mixture).
Equipped with this insight, we propose UNSSOR, an algorithm for
$\textbf{u}$nsupervised $\textbf{n}$eural $\textbf{s}$peech
$\textbf{s}$eparation by leveraging $\textbf{o}$ver-determined training
mixtu$\textbf{r}$es. At each training step, we feed an input mixture to a deep
neural network (DNN) to produce an intermediate estimate for each speaker,
linearly filter the estimates, and optimize a loss so that, at each microphone,
the filtered estimates of all the speakers can add up to the mixture to satisfy
the above constraint. We show that this loss can promote unsupervised
separation of speakers. The linear filters are computed in each sub-band based
on the mixture and DNN estimates through the forward convolutive prediction
(FCP) algorithm. To address the frequency permutation problem incurred by using
sub-band FCP, a loss term based on minimizing intra-source magnitude scattering
is proposed. Although UNSSOR requires over-determined training mixtures, we can
train DNNs to achieve under-determined separation (e.g., unsupervised monaural
speech separation). Evaluation results on two-speaker separation in reverberant
conditions show the effectiveness and potential of UNSSOR.
- Abstract(参考訳): 複数の同時話者を持つ残響状態において、各マイクは異なる場所で複数の話者の混合信号を取得する。
マイクロホンが話者数を上回る過大な条件下では、各混合信号を制約として利用することにより、話者画像に対する解を絞り込み、教師なし音声分離を実現することができる(例えば、マイクロホンにおける推定話者画像は、混合音声に加算されるべきである)。
この知見に基づき、UNSSORは、$\textbf{u}$nsupervised $\textbf{n}$eural $\textbf{s}$peech $\textbf{s}$eparationに対して、$\textbf{o}$ver-determined training mixtu$\textbf{r}$esを利用するアルゴリズムを提案する。
各トレーニングステップでは、入力混合物をディープニューラルネットワーク(dnn)に供給して、各話者の中間推定を生成し、その推定値を線形にフィルタリングし、損失を最適化することで、各マイクにおいて、上記の制約を満たすために、すべての話者のフィルタされた推定値が混合物に加算されるようにする。
この損失は、教師なし話者の分離を促進することができる。
線形フィルタは、フォワード畳み込み予測(fcp)アルゴリズムにより、混合およびdnn推定に基づいて各サブバンドで計算される。
サブバンドFCPを用いて発生する周波数変動問題に対処するため,ソース内規模の最小化に基づく損失項を提案する。
UNSSORは過度に決定された訓練混合物を必要とするが、過度に決定された分離を達成するためにDNNを訓練することができる。
残響条件における2話者分離の評価結果はUNSSORの有効性と可能性を示している。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:54:49Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Co-Mixup: Saliency Guided Joint Mixup with Supermodular Diversity [15.780905917870427]
バッチ混成データに対する新たな視点を提案し, バッチ混成データの最適構築を定式化する。
また,各ミニバッチ毎に効率的な混合を行うために,効率的なモジュール近似に基づく反復的部分モジュラー計算アルゴリズムを提案する。
実験により, 提案手法は, 技術一般化, キャリブレーション, および弱教師付き局所化結果の状態を達成できることを示した。
論文 参考訳(メタデータ) (2021-02-05T09:12:02Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - One Size Fits All: Can We Train One Denoiser for All Noise Levels? [13.46272057205994]
1つのニューラルネットワーク推定器を訓練し、それを全てのノイズレベルに適用することが好ましい。
事実上のプロトコルは、ノイズが均一に分散されたノイズサンプルで推定器を訓練することである。
本稿では,ミニマックスリスク最適化の観点から,サンプル問題に対処する。
論文 参考訳(メタデータ) (2020-05-19T17:56:04Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。