論文の概要: Toward Deep Drum Source Separation
- arxiv url: http://arxiv.org/abs/2312.09663v2
- Date: Tue, 7 May 2024 11:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 19:54:07.722107
- Title: Toward Deep Drum Source Separation
- Title(参考訳): 深部ドラム音源分離に向けて
- Authors: Alessandro Ilic Mezza, Riccardo Giampiccolo, Alberto Bernardini, Augusto Sarti,
- Abstract要約: 本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
- 参考スコア(独自算出の注目度): 52.01259769265708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past, the field of drum source separation faced significant challenges due to limited data availability, hindering the adoption of cutting-edge deep learning methods that have found success in other related audio applications. In this manuscript, we introduce StemGMD, a large-scale audio dataset of isolated single-instrument drum stems. Each audio clip is synthesized from MIDI recordings of expressive drums performances using ten real-sounding acoustic drum kits. Totaling 1224 hours, StemGMD is the largest audio dataset of drums to date and the first to comprise isolated audio clips for every instrument in a canonical nine-piece drum kit. We leverage StemGMD to develop LarsNet, a novel deep drum source separation model. Through a bank of dedicated U-Nets, LarsNet can separate five stems from a stereo drum mixture faster than real-time and is shown to significantly outperform state-of-the-art nonnegative spectro-temporal factorization methods.
- Abstract(参考訳): これまで、ドラムソース分離の分野は、データ可用性が限られており、他の関連するオーディオアプリケーションで成功を収めた最先端のディープラーニング手法の採用を妨げていたため、重大な課題に直面していた。
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
10個の実音響ドラムキットを用いて、各オーディオクリップを表現型ドラム演奏のMIDI記録から合成する。
トータルで1224時間、StemGMDはドラムの最大のオーディオデータセットであり、標準の9ピースドラムキットですべての楽器のための独立したオーディオクリップを初めて作成した。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
専用U-Netのバンクを通じて、LarsNetはステレオドラムの混合物から5本の幹をリアルタイムより高速に分離することができ、最先端の非負の分光時間分解法よりも著しく優れていることを示す。
関連論文リスト
- SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation [7.428668206443388]
そこで本研究では,シミュレーション手法を用いて現実的なトレーニングセットを作成する,SynthSODと呼ばれる新しいマルチトラックデータセットを提案する。
合成データセットw.r.tをトレーニングしたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実演する。
論文 参考訳(メタデータ) (2024-09-17T08:58:33Z) - Subtractive Training for Music Stem Insertion using Latent Diffusion Models [35.91945598575059]
本稿では,他の楽器を文脈として与えた個々の楽器茎を合成する方法であるSubtractive Trainingを提案する。
以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。
我々はこの技術をMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品をうまく生成する。
論文 参考訳(メタデータ) (2024-06-27T16:59:14Z) - A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems [53.30852012059025]
Banquetは1つのデコーダを使って複数の幹のソース分離を可能にするシステムである。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
論文 参考訳(メタデータ) (2024-06-26T20:25:53Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Show Me the Instruments: Musical Instrument Retrieval from Mixture Audio [11.941510958668557]
これを「楽器検索」と呼ぶ。
本稿では,クエリーとして参照音楽の混合を用いて,所望の楽器を検索する手法を提案する。
提案モデルは,畳み込みニューラルネットワークに基づくシングルインスツルメンツとマルチインスツルメンツで構成されている。
論文 参考訳(メタデータ) (2022-11-15T07:32:39Z) - DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks [0.0]
本稿では、DrumGAN VSTについて述べる。DrumGAN VSTは、ジェネレーティブ・アドリアル・ネットワークを用いてドラム音を合成するためのプラグインである。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜伏空間に音をマッピングする符号化ニューラルネットワークを備えている。
論文 参考訳(メタデータ) (2022-06-29T15:44:19Z) - Source Separation-based Data Augmentation for Improved Joint Beat and
Downbeat Tracking [33.05612957858605]
本研究では、ブラインドドラム分離モデルを用いて、各訓練音声信号からドラムと非ドラム音を分離することを提案する。
提案手法の有効性を検証するために, 完全に見えない4つのテストセットについて実験を行った。
論文 参考訳(メタデータ) (2021-06-16T11:09:05Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Multitask learning for instrument activation aware music source
separation [83.30944624666839]
本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。
その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-03T02:35:00Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。