論文の概要: Music Source Separation with Band-split RNN
- arxiv url: http://arxiv.org/abs/2209.15174v1
- Date: Fri, 30 Sep 2022 01:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 17:03:10.539806
- Title: Music Source Separation with Band-split RNN
- Title(参考訳): 帯域分割RNNを用いた音源分離
- Authors: Yi Luo, Jianwei Yu
- Abstract要約: 本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
- 参考スコア(独自算出の注目度): 25.578400006180527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of music source separation (MSS) models has been greatly
improved in recent years thanks to the development of novel neural network
architectures and training pipelines. However, recent model designs for MSS
were mainly motivated by other audio processing tasks or other research fields,
while the intrinsic characteristics and patterns of the music signals were not
fully discovered. In this paper, we propose band-split RNN (BSRNN), a
frequency-domain model that explictly splits the spectrogram of the mixture
into subbands and perform interleaved band-level and sequence-level modeling.
The choices of the bandwidths of the subbands can be determined by a priori
knowledge or expert knowledge on the characteristics of the target source in
order to optimize the performance on a certain type of target musical
instrument. To better make use of unlabeled data, we also describe a
semi-supervised model finetuning pipeline that can further improve the
performance of the model. Experiment results show that BSRNN trained only on
MUSDB18-HQ dataset significantly outperforms several top-ranking models in
Music Demixing (MDX) Challenge 2021, and the semi-supervised finetuning stage
further improves the performance on all four instrument tracks.
- Abstract(参考訳): 近年,新たなニューラルネットワークアーキテクチャとトレーニングパイプラインの開発により,音楽音源分離(MSS)モデルの性能が大幅に向上している。
しかし、近年のMSSのモデル設計は、主に他のオーディオ処理タスクや他の研究分野によって動機付けられているが、音楽信号の固有の特徴やパターンは完全には発見されなかった。
本稿では,周波数領域モデルであるバンド分割RNN(BSRNN)を提案する。
サブバンドの帯域幅の選択は、特定の種類のターゲット楽器の性能を最適化するために、対象音源の特性に関する事前知識または専門家知識によって決定することができる。
ラベルのないデータをよりよく活用するために、モデルの性能をさらに向上させる半教師付きモデル微調整パイプラインについても記述する。
実験結果から,BSRNNはMUSDB18-HQデータセットのみをトレーニングし,音楽デミキシング(MDX)チャレンジ2021においていくつかの上位モデルを上回る性能を示した。
関連論文リスト
- Comparative Analysis of Pretrained Audio Representations in Music Recommender Systems [0.0]
音楽情報検索 (MIR) は大量の音楽データに基づいて事前訓練された様々なモデルを提案する。
転送学習は、下流タスクの幅広い範囲で事前訓練されたバックエンドモデルの実証された効果を示す。
Music Recommender Systemsは、事前訓練されたモデルよりも、従来のエンドツーエンドのニューラルネットワーク学習を好む傾向がある。
論文 参考訳(メタデータ) (2024-09-13T17:03:56Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice
Enhancement [8.782080886602145]
歌声強調のための新しい時間周波数ニューラルネットワーク(MBTFNet)を提案する。
MBTFNetは、バックグラウンド音楽、ノイズ、さらにはボーカルを歌唱録音から削除する。
実験により,提案モデルがいくつかの最先端SEモデルとMSSモデルより有意に優れていることが示された。
論文 参考訳(メタデータ) (2023-10-06T16:44:47Z) - Low-Resource Music Genre Classification with Cross-Modal Neural Model
Reprogramming [129.4950757742912]
ニューラルモデル再プログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。
NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。
実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T17:38:33Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。