論文の概要: Unsupervised Sound Separation Using Mixture Invariant Training
- arxiv url: http://arxiv.org/abs/2006.12701v2
- Date: Sat, 24 Oct 2020 02:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:53:55.944455
- Title: Unsupervised Sound Separation Using Mixture Invariant Training
- Title(参考訳): 混合不変学習を用いた教師なし音分離
- Authors: Scott Wisdom and Efthymios Tzinis and Hakan Erdogan and Ron J. Weiss
and Kevin Wilson and John R. Hershey
- Abstract要約: 音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。
特に,残響混合を組み込むことで残響分離性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 38.0680944898427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, rapid progress has been made on the problem of
single-channel sound separation using supervised training of deep neural
networks. In such supervised approaches, a model is trained to predict the
component sources from synthetic mixtures created by adding up isolated
ground-truth sources. Reliance on this synthetic training data is problematic
because good performance depends upon the degree of match between the training
data and real-world audio, especially in terms of the acoustic conditions and
distribution of sources. The acoustic properties can be challenging to
accurately simulate, and the distribution of sound types may be hard to
replicate. In this paper, we propose a completely unsupervised method, mixture
invariant training (MixIT), that requires only single-channel acoustic
mixtures. In MixIT, training examples are constructed by mixing together
existing mixtures, and the model separates them into a variable number of
latent sources, such that the separated sources can be remixed to approximate
the original mixtures. We show that MixIT can achieve competitive performance
compared to supervised methods on speech separation. Using MixIT in a
semi-supervised learning setting enables unsupervised domain adaptation and
learning from large amounts of real world data without ground-truth source
waveforms. In particular, we significantly improve reverberant speech
separation performance by incorporating reverberant mixtures, train a speech
enhancement system from noisy mixtures, and improve universal sound separation
by incorporating a large amount of in-the-wild data.
- Abstract(参考訳): 近年,深層ニューラルネットワークの教師付き学習による単一チャネル音声分離の課題が急速に進展している。
このような教師付きアプローチでは、孤立した接地トラス源を付加した合成混合物から成分源を予測するためにモデルを訓練する。
この合成訓練データへの依存度は、特に音響条件と音源分布の観点から、訓練データと実世界の音声との一致度に依存するため問題となる。
音響特性を正確にシミュレートすることは困難であり、音響タイプの分布を再現することは困難である。
本稿では,MixIT(mixed invariant training)という,単一チャネルの音響混合しか必要としない手法を提案する。
MixITでは、既存の混合物を混合してトレーニング例を構築し、モデルを可変数の潜水源に分離し、分離したソースをリミックスして元の混合物を近似する。
音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。
半教師付き学習環境におけるMixITの活用により、非教師なしの領域適応と大量の実世界のデータからの学習を、基底構造源波形なしで行うことができる。
特に,残響混合を組み込むことにより残響音声分離性能を著しく向上させ,雑音混合から音声強調システムを訓練し,大量の単語データを組み込んで普遍的な音声分離を改善する。
関連論文リスト
- Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Single-channel speech enhancement using learnable loss mixup [23.434378634735676]
一般化は、単一チャンネル音声強調の教師あり学習において依然として大きな問題である。
深層学習に基づく音声強調モデルの一般化を改善するため,学習可能損失混合(LLM)を提案する。
VCTKベンチマークによる実験結果から,学習可能な損失混入3.26 PESQは最先端に優れることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:25:55Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Semantic Equivariant Mixup [54.734054770032934]
Mixupは、トレーニング分布を拡張し、ニューラルネットワークを正規化する、確立されたデータ拡張テクニックである。
以前のミックスアップの変種はラベル関連の情報に過度に焦点をあてる傾向がある。
入力中のよりリッチな意味情報を保存するための意味的同変混合(sem)を提案する。
論文 参考訳(メタデータ) (2023-08-12T03:05:53Z) - Over-training with Mixup May Hurt Generalization [32.64382185990981]
今回,Mixupトレーニングの既往の現象を報告する。
多くの標準データセットにおいて、Mixupトレーニングモデルの性能は、多くのエポックのトレーニング後に低下し始めます。
理論的には、Mixupトレーニングは、不要なデータ依存ラベルノイズを合成データに導入する可能性がある。
論文 参考訳(メタデータ) (2023-03-02T18:37:34Z) - Unsupervised Source Separation via Self-Supervised Training [0.913755431537592]
単一チャネルの2音源混合音声からの自己教師付き訓練を含む2つの新しい非教師付き音源分離手法を提案する。
最初の方法は、置換不変性トレーニング(PIT)を用いて、人工的に生成した混合物を元の混合物に分離する。
我々は、この最初の方法を改善するために、ソース推定の混合物を作成し、PITを用いてこれらの新しい混合物を循環的に分離する。
私たちは、MixPITが私たちの小さなデータセット(SC09Mix)で共通のベースライン(MixIT)より優れており、標準データセット(LibriMix)で同等のパフォーマンスを持つことを示す。
論文 参考訳(メタデータ) (2022-02-08T14:02:50Z) - Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-24T11:05:30Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Teacher-Student MixIT for Unsupervised and Semi-supervised Speech
Separation [27.19635746008699]
エンド・ツー・エンド音声分離のための新しい半教師付き学習フレームワークを提案する。
提案手法はまず,教師モデルを訓練するために,未分離音源と混合不変訓練基準の混合を用いる。
単一チャネルと複数チャネルの混合実験により,教師と学生の学習がオーバーセパレーションの問題を解決することを示した。
論文 参考訳(メタデータ) (2021-06-15T02:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。