論文の概要: Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models
- arxiv url: http://arxiv.org/abs/2201.09592v1
- Date: Mon, 24 Jan 2022 11:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 01:04:20.871437
- Title: Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models
- Title(参考訳): 微分パラメトリック音源モデルを用いた教師なし音源分離
- Authors: Kilian Schulze-Forster, Clement S. J. Doire, Ga\"el Richard, Roland
Badeau
- Abstract要約: 本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
- 参考スコア(独自算出の注目度): 8.80867379881193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised deep learning approaches to underdetermined audio source
separation achieve state-of-the-art performance but require a dataset of
mixtures along with their corresponding isolated source signals. Such datasets
can be extremely costly to obtain for musical mixtures. This raises a need for
unsupervised methods. We propose a novel unsupervised model-based deep learning
approach to musical source separation. Each source is modelled with a
differentiable parametric source-filter model. A neural network is trained to
reconstruct the observed mixture as a sum of the sources by estimating the
source models' parameters given their fundamental frequencies. At test time,
soft masks are obtained from the synthesized source signals. The experimental
evaluation on a vocal ensemble separation task shows that the proposed method
outperforms learning-free methods based on nonnegative matrix factorization and
a supervised deep learning baseline. Integrating domain knowledge in the form
of source models into a data-driven method leads to high data efficiency: the
proposed approach achieves good separation quality even when trained on less
than three minutes of audio. This work makes powerful deep learning based
separation usable in scenarios where training data with ground truth is
expensive or nonexistent.
- Abstract(参考訳): 教師付きディープラーニングによるオーディオソース分離は最先端のパフォーマンスを実現するが、それらに対応する分離されたソース信号とともに混合物のデータセットを必要とする。
このようなデータセットは、音楽の混合に対して非常に費用がかかる。
これにより教師なしメソッドの必要性が高まる。
本稿では,教師なしモデルに基づく新たな深層学習手法を提案する。
各ソースは、微分可能なパラメトリックソースフィルタモデルでモデル化される。
ソースモデルのパラメータを基本周波数から推定することにより、観測された混合物をソースの合計として再構成するようにニューラルネットワークを訓練する。
テスト時には、合成されたソース信号からソフトマスクを得る。
音声アンサンブル分離タスクの実験評価は,非負の行列分解と教師付きディープラーニングベースラインに基づいて,提案手法が学習自由な手法より優れていることを示す。
提案手法は,3分未満のオーディオで訓練しても,良好な分離品質を実現する。
この作業は、地上の真実によるトレーニングデータが高価または存在しないシナリオで、強力なディープラーニングベースの分離を可能にする。
関連論文リスト
- Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Learning Dynamics from Noisy Measurements using Deep Learning with a
Runge-Kutta Constraint [9.36739413306697]
そこで本研究では,雑音と疎サンプルを用いた微分方程式の学習手法について論じる。
我々の方法論では、ディープニューラルネットワークと古典的な数値積分法の統合において、大きな革新が見られる。
論文 参考訳(メタデータ) (2021-09-23T15:43:45Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Unsupervised Sound Separation Using Mixture Invariant Training [38.0680944898427]
音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。
特に,残響混合を組み込むことで残響分離性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-23T02:22:14Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。