論文の概要: CWS-PResUNet: Music Source Separation with Channel-wise Subband
Phase-aware ResUNet
- arxiv url: http://arxiv.org/abs/2112.04685v1
- Date: Thu, 9 Dec 2021 03:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:52:24.513125
- Title: CWS-PResUNet: Music Source Separation with Channel-wise Subband
Phase-aware ResUNet
- Title(参考訳): CWS-PResUNet:チャンネルワイドサブバンド位相認識ResUNetによる音源分離
- Authors: Haohe Liu, Qiuqiang Kong, Jiafeng Liu
- Abstract要約: 近年の深層学習モデルでは,音楽音源分離(MSS)が活発に進展している。
チャネルワイドのサブバンド位相認識型ResUNet(CWS-PResUNet)モデルを提案し,信号をサブバンドに分解し,各ソースに対する非有界複素イデアル比マスク(cIRM)を推定する。
CWS-PResUNetは、チャネルワイドサブバンド機能を使用して、スペクトログラム上の不要なグローバルな重み共有を制限する。
- 参考スコア(独自算出の注目度): 10.27705697219194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music source separation (MSS) shows active progress with deep learning models
in recent years. Many MSS models perform separations on spectrograms by
estimating bounded ratio masks and reusing the phases of the mixture. When
using convolutional neural networks (CNN), weights are usually shared within a
spectrogram during convolution regardless of the different patterns between
frequency bands. In this study, we propose a new MSS model, channel-wise
subband phase-aware ResUNet (CWS-PResUNet), to decompose signals into subbands
and estimate an unbound complex ideal ratio mask (cIRM) for each source.
CWS-PResUNet utilizes a channel-wise subband (CWS) feature to limit unnecessary
global weights sharing on the spectrogram and reduce computational resource
consumptions. The saved computational cost and memory can in turn allow for a
larger architecture. On the MUSDB18HQ test set, we propose a 276-layer
CWS-PResUNet and achieve state-of-the-art (SoTA) performance on vocals with an
8.92 signal-to-distortion ratio (SDR) score. By combining CWS-PResUNet and
Demucs, our ByteMSS system ranks the 2nd on vocals score and 5th on average
score in the 2021 ISMIR Music Demixing (MDX) Challenge limited training data
track (leaderboard A). Our code and pre-trained models are publicly available
at: https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet
- Abstract(参考訳): 近年の深層学習モデルでは,音楽音源分離(MSS)が活発に進展している。
多くのMSSモデルは、有界比マスクを推定し、混合物の位相を再利用することでスペクトル上で分離を行う。
畳み込みニューラルネットワーク(cnn)を使用する場合、重みは通常、周波数帯域間の異なるパターンに関わらず畳み込み中にスペクトログラム内で共有される。
本研究では、チャネルワイドのサブバンド位相認識型ResUNet(CWS-PResUNet)と呼ばれる新しいMSSモデルを提案し、信号をサブバンドに分解し、各ソースに対する非有界複素イデアル比マスク(cIRM)を推定する。
CWS-PResUNetは、チャネルワイドサブバンド(CWS)機能を利用して、スペクトログラム上の不要なグローバルな重量共有を制限し、計算資源消費を減らす。
セーブされた計算コストとメモリは、より大きなアーキテクチャを可能にする。
MUSDB18HQテストセットでは、276層CWS-PResUNetを提案し、8.92信号-歪み比(SDR)スコアを持つボーカルに対して最先端(SoTA)性能を実現する。
cws-presunetとdemucsを組み合わせることで,2021年のismir music demixing (mdx) challenge limited training data track (leaderboard a) において,ボーカルスコアで2位,平均スコアで5位とランク付けした。
私たちのコードと事前トレーニングされたモデルは、https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNetで公開されています。
関連論文リスト
- Spectral Mapping of Singing Voices: U-Net-Assisted Vocal Segmentation [0.0]
本研究では,音楽スペクトログラムから発声成分を分離する手法を提案する。
我々は、短い時間フーリエ変換(STFT)を用いて、詳細な周波数時間スペクトログラムに音声波を抽出する。
我々は,歌唱音声成分を正確に分析・抽出することを目的とした,スペクトル画像のセグメント化のためのUNetニューラルネットワークを実装した。
論文 参考訳(メタデータ) (2024-05-30T13:47:53Z) - Score-CDM: Score-Weighted Convolutional Diffusion Model for Multivariate Time Series Imputation [0.035984704795350306]
MTS(Multivariant Time Series)データは通常、実際のシナリオでは不完全である。
本稿では,Score-weighted Convolutional Diffusion Model (Score-CDM)を提案する。背骨はScore-weighted Convolution Module (SCM)とAdaptive Reception Module (ARM)から構成される。
我々は,異なる領域の3つの実MCSデータセットに対して広範囲に評価を行い,提案したScore-CDMの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-21T02:00:55Z) - Automated classification of pre-defined movement patterns: A comparison
between GNSS and UWB technology [55.41644538483948]
リアルタイム位置情報システム(RTLS)は、人間の動きパターンからデータを収集することができる。
本研究の目的は、小さな領域における人間の動きパターンを分類する自動化された枠組みを設計し、評価することである。
論文 参考訳(メタデータ) (2023-03-10T14:46:42Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - ARM: Any-Time Super-Resolution Method [72.98897502507789]
Any-time Super-Resolution Method (ARM) は、過パラメータ化された単一画像超解像(SISR)モデルに取り組むために提案される。
ARMは,(1)異なる大きさのSISRネットワークで異なる画像パッチの性能,(2)再構成画像の計算オーバーヘッドと性能との間にはトレードオフがあり,(3)入力画像が与えられた場合,そのエッジ情報はPSNRを推定する有効な選択肢となる。
論文 参考訳(メタデータ) (2022-03-21T09:06:26Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。