論文の概要: Many-Speakers Single Channel Speech Separation with Optimal Permutation
Training
- arxiv url: http://arxiv.org/abs/2104.08955v1
- Date: Sun, 18 Apr 2021 20:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 06:46:48.643547
- Title: Many-Speakers Single Channel Speech Separation with Optimal Permutation
Training
- Title(参考訳): 最適置換訓練による多話者単一チャネル音声分離
- Authors: Shaked Dovrat, Eliya Nachmani, Lior Wolf
- Abstract要約: 我々は、$O(C3)$時間の複雑さで訓練するためにハンガリーのアルゴリズムを使用する置換不変トレーニングを提示します。
私たちのアプローチは、最大$ 20$スピーカーを分離し、大きな$ C$の以前の結果を幅広いマージンで改善します。
- 参考スコア(独自算出の注目度): 91.22679787578438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single channel speech separation has experienced great progress in the last
few years. However, training neural speech separation for a large number of
speakers (e.g., more than 10 speakers) is out of reach for the current methods,
which rely on the Permutation Invariant Loss (PIT). In this work, we present a
permutation invariant training that employs the Hungarian algorithm in order to
train with an $O(C^3)$ time complexity, where $C$ is the number of speakers, in
comparison to $O(C!)$ of PIT based methods. Furthermore, we present a modified
architecture that can handle the increased number of speakers. Our approach
separates up to $20$ speakers and improves the previous results for large $C$
by a wide margin.
- Abstract(参考訳): 単一チャンネル音声分離はここ数年で大きな進歩を遂げている。
しかし、多くの話者(例えば10人以上の話者)に対する神経音声分離の訓練は、置換不変損失(permutation invariant loss, pit)に依存する現在の方法には届かない。
本研究では,ハンガリーのアルゴリズムを用いて,話者数を$c$とした場合に,話者数を$o(c^3)とする時間複雑性を学習する置換不変トレーニングを提案する。
) PIT ベースのメソッドの$。
さらに,話者数の増加に対応する改良型アーキテクチャを提案する。
弊社のアプローチでは、最大20ドルのスピーカーを分離し、これまでの結果をC$で大きく改善する。
関連論文リスト
- Sortformer: Seamless Integration of Speaker Diarization and ASR by Bridging Timestamps and Tokens [27.08293218877395]
本稿では,話者ダイアリゼーションのためのニューラルモデルであるSortformerを提案する。
ダイアリゼーションモデルにより、PILの有無に関わらず、順列化を自律的に解決することのできる、ソートロス(Sort Loss)を導入する。
コードとトレーニングされたモデルはNVIDIA NeMoフレームワークを介して公開される。
論文 参考訳(メタデータ) (2024-09-10T17:20:11Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - SepIt: Approaching a Single Channel Speech Separation Bound [99.19786288094596]
我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2022-05-24T05:40:36Z) - Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly [16.534380339042087]
本稿では,CNNに基づく話者モデリング手法を提案する。
トレーニングデータを一組のセグメントにランダムに合成的に拡張する。
各セグメントには、その話者占有率に基づいてソフトラベルが課される。
論文 参考訳(メタデータ) (2022-03-30T19:59:05Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Guided Training: A Simple Method for Single-channel Speaker Separation [40.34570426165019]
本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
論文 参考訳(メタデータ) (2021-03-26T08:46:50Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Towards Listening to 10 People Simultaneously: An Efficient Permutation
Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm [9.340611077939828]
ニューラルネットワークに基づく一音節音声分離技術では、最近、置換不変訓練(PIT)の損失を用いて損失を評価することが一般的である。
本稿では,PIT損失の新たな変種であるSinkPITを提案する。
論文 参考訳(メタデータ) (2020-10-22T17:08:17Z) - Serialized Output Training for End-to-End Overlapped Speech Recognition [35.894025054676696]
逐次出力訓練(SOT)はマルチ話者重畳音声認識のための新しいフレームワークである。
SOTは、複数の話者の書き起こしを次々と生成する出力層が1つしかないモデルを使用する。
SOTモデルは、PITモデルよりも話者の変動数で重なり合った音声を転写可能であることを示す。
論文 参考訳(メタデータ) (2020-03-28T02:37:09Z) - Voice Separation with an Unknown Number of Multiple Speakers [113.91855071999298]
本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
論文 参考訳(メタデータ) (2020-02-29T20:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。