論文の概要: Single-channel speech separation using Soft-minimum Permutation
Invariant Training
- arxiv url: http://arxiv.org/abs/2111.08635v1
- Date: Tue, 16 Nov 2021 17:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 17:07:18.571296
- Title: Single-channel speech separation using Soft-minimum Permutation
Invariant Training
- Title(参考訳): ソフトminimum permutation invariant trainingを用いた単チャネル音声分離
- Authors: Midia Yousefi, John H.L. Hansen
- Abstract要約: 教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.99112031408449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of speech separation is to extract multiple speech sources from a
single microphone recording. Recently, with the advancement of deep learning
and availability of large datasets, speech separation has been formulated as a
supervised learning problem. These approaches aim to learn discriminative
patterns of speech, speakers, and background noise using a supervised learning
algorithm, typically a deep neural network. A long-lasting problem in
supervised speech separation is finding the correct label for each separated
speech signal, referred to as label permutation ambiguity. Permutation
ambiguity refers to the problem of determining the output-label assignment
between the separated sources and the available single-speaker speech labels.
Finding the best output-label assignment is required for calculation of
separation error, which is later used for updating parameters of the model.
Recently, Permutation Invariant Training (PIT) has been shown to be a promising
solution in handling the label ambiguity problem. However, the overconfident
choice of the output-label assignment by PIT results in a sub-optimal trained
model. In this work, we propose a probabilistic optimization framework to
address the inefficiency of PIT in finding the best output-label assignment.
Our proposed method entitled trainable Soft-minimum PIT is then employed on the
same Long-Short Term Memory (LSTM) architecture used in Permutation Invariant
Training (PIT) speech separation method. The results of our experiments show
that the proposed method outperforms conventional PIT speech separation
significantly (p-value $ < 0.01$) by +1dB in Signal to Distortion Ratio (SDR)
and +1.5dB in Signal to Interference Ratio (SIR).
- Abstract(参考訳): 音声分離の目的は、単一のマイク記録から複数の音声源を抽出することである。
近年,ディープラーニングの進歩と大規模データセットの活用により,音声分離は教師付き学習問題として定式化されている。
これらのアプローチは、教師付き学習アルゴリズム、典型的にはディープニューラルネットワークを用いて、音声、話者、背景雑音の識別パターンを学習することを目的としている。
教師付き音声分離における長期的問題は、それぞれの分離された音声信号に対して正しいラベルを見つけることである。
Permutation ambiguityは、分離されたソースと利用可能な単一話者音声ラベルの間の出力ラベル割り当てを決定する問題を指す。
最良の出力ラベルの割り当てを見つけるには分離誤差の計算が必要であり、これは後にモデルのパラメータの更新に使用される。
近年,ラベルあいまいさ問題に対処する上で,PIT(Permutation Invariant Training)が有望なソリューションであることが示されている。
しかし、PITによる出力ラベル割り当ての過度な選択は、準最適訓練モデルをもたらす。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
提案手法は,PIT(Permutation Invariant Training)音声分離法において,Long-Short Term Memory (LSTM) アーキテクチャを応用した。
実験の結果,提案手法は従来のPIT音声分離に比べて,SDR(Signal to Distortion Ratio)では+1dB,SIR(Signal to Interference Ratio)では+1.5dBで有意に優れていた(p-value $ < 0.01$)。
関連論文リスト
- Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - Improving Label Assignments Learning by Dynamic Sample Dropout Combined
with Layer-wise Optimization in Speech Separation [8.489574755691613]
教師付き音声分離では、モデルを更新する最適な置換を選択することで、ラベルのあいまいさを扱うために、置換不変トレーニング(PIT)が広く使用されている。
これまでの研究では、PITは隣接した時代における過剰なラベル割り当ての切り替えに悩まされており、より良いラベル割り当てを学ぶためのモデルが妨げられていた。
本研究では,学習中のラベル割り当てに悪影響を及ぼす可能性のあるサンプルを除外するために,過去のベストラベル割り当てと評価指標を考慮した新しいトレーニング戦略である動的サンプルドロップアウト(DSD)を提案する。
論文 参考訳(メタデータ) (2023-11-20T21:37:38Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - On Robust Learning from Noisy Labels: A Permutation Layer Approach [53.798757734297986]
本稿では、深層ニューラルネットワーク(DNN)のトレーニング過程を動的に校正するPermLLと呼ばれる置換層学習手法を提案する。
本稿では,PermLLの2つの変種について述べる。一方はモデルの予測に置換層を適用し,他方は与えられた雑音ラベルに直接適用する。
我々はPermLLを実験的に検証し、実際のデータセットと合成データセットの両方で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-11-29T03:01:48Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - On permutation invariant training for speech source separation [20.82852423999727]
話者独立音源分離モデルにおける置換あいまいさ問題を対象とした置換不変訓練(PIT)について検討する。
まず,STFT領域に対して提案されたフレームレベルPIT(tPIT)とクラスタリングに基づく2段階話者分離追跡アルゴリズムについて検討する。
第2に、発話レベルPIT(uPIT)による局所的な置換誤差を低減するため、最近提案された「プロブレム非依存音声特徴」に基づく深い特徴損失を伴う補助話者ID損失を拡張した。
論文 参考訳(メタデータ) (2021-02-09T16:57:32Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。