論文の概要: Fast accuracy estimation of deep learning based multi-class musical
source separation
- arxiv url: http://arxiv.org/abs/2010.09453v3
- Date: Wed, 1 Dec 2021 07:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 23:27:57.871333
- Title: Fast accuracy estimation of deep learning based multi-class musical
source separation
- Title(参考訳): 深層学習に基づくマルチクラス音源分離の高精度推定
- Authors: Alexandru Mocanu, Benjamin Ricaud, Milos Cernak
- Abstract要約: 本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
- 参考スコア(独自算出の注目度): 79.10962538141445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music source separation represents the task of extracting all the instruments
from a given song. Recent breakthroughs on this challenge have gravitated
around a single dataset, MUSDB, only limited to four instrument classes. Larger
datasets and more instruments are costly and time-consuming in collecting data
and training deep neural networks (DNNs). In this work, we propose a fast
method to evaluate the separability of instruments in any dataset without
training and tuning a DNN. This separability measure helps to select
appropriate samples for the efficient training of neural networks. Based on the
oracle principle with an ideal ratio mask, our approach is an excellent proxy
to estimate the separation performances of state-of-the-art deep learning
approaches such as TasNet or Open-Unmix. Our results contribute to revealing
two essential points for audio source separation: 1) the ideal ratio mask,
although light and straightforward, provides an accurate measure of the audio
separability performance of recent neural nets, and 2) new end-to-end learning
methods such as Tasnet, that operate directly on waveforms, are, in fact,
internally building a Time-Frequency (TF) representation, so that they
encounter the same limitations as the TF based-methods when separating audio
pattern overlapping in the TF plane.
- Abstract(参考訳): 音源分離は、与えられた曲からすべての楽器を抽出する作業を表す。
この課題に関する最近のブレークスルーは、単一のデータセットであるMUSDBを中心に、わずか4つの計器クラスに限られている。
より大きなデータセットとより多くの機器は、データ収集とディープニューラルネットワーク(DNN)のトレーニングに費用と時間を要する。
本研究では,DNNを訓練・調整することなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
この分離性尺度は、ニューラルネットワークの効率的なトレーニングのための適切なサンプルを選択するのに役立つ。
理想的な比マスクを持つオラクルの原理に基づいて,TasNetやOpen-Unmixのような最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
我々の結果は、音源分離に不可欠な2つの点を明らかにすることに寄与している。
1) 理想比マスクは, 軽さと単純さはあるものの, 最近のニューラルネットの音響分離性能を正確に測定する。
2) 波形を直接操作するTasnetのような新しいエンドツーエンド学習手法は、実際、TF平面に重なり合う音声パターンを分離する際に、TFベースメソッドと同じ制限に直面するように、時間周波数(TF)表現を内部的に構築する。
関連論文リスト
- Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-24T11:05:30Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Training a Deep Neural Network via Policy Gradients for Blind Source
Separation in Polyphonic Music Recordings [1.933681537640272]
音響信号における楽器の音の盲点分離法を提案する。
パラメトリックモデルを用いて個々の音色を記述し、辞書を訓練し、高調波の相対振幅を捉える。
提案アルゴリズムは,様々な音声サンプルに対して,特に低干渉で高品質な結果が得られる。
論文 参考訳(メタデータ) (2021-07-09T06:17:04Z) - Broadcasted Residual Learning for Efficient Keyword Spotting [7.335747584353902]
モデルサイズと計算負荷を小さくして高精度な放送残差学習手法を提案する。
また,放送残差学習に基づく新しいネットワークアーキテクチャ,BC-Residual Network(BC-ResNet)を提案する。
BC-ResNetsは、Googleの音声コマンドデータセット v1 と v2 で、最先端の98.0% と98.7% のトップ-1 の精度をそれぞれ達成している。
論文 参考訳(メタデータ) (2021-06-08T06:55:39Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。