論文の概要: Toward Deep Drum Source Separation
- arxiv url: http://arxiv.org/abs/2312.09663v1
- Date: Fri, 15 Dec 2023 10:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:29:02.614965
- Title: Toward Deep Drum Source Separation
- Title(参考訳): 深部ドラム音源分離に向けて
- Authors: Alessandro Ilic Mezza, Riccardo Giampiccolo, Alberto Bernardini,
Augusto Sarti
- Abstract要約: 本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
- 参考スコア(独自算出の注目度): 55.801504997501084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past, the field of drum source separation faced significant challenges
due to limited data availability, hindering the adoption of cutting-edge deep
learning methods that have found success in other related audio applications.
In this manuscript, we introduce StemGMD, a large-scale audio dataset of
isolated single-instrument drum stems. Each audio clip is synthesized from MIDI
recordings of expressive drums performances using ten real-sounding acoustic
drum kits. Totaling 1224 hours, StemGMD is the largest audio dataset of drums
to date and the first to comprise isolated audio clips for every instrument in
a canonical nine-piece drum kit. We leverage StemGMD to develop LarsNet, a
novel deep drum source separation model. Through a bank of dedicated U-Nets,
LarsNet can separate five stems from a stereo drum mixture faster than
real-time and is shown to significantly outperform state-of-the-art nonnegative
spectro-temporal factorization methods.
- Abstract(参考訳): 過去には、ドラムソース分離の分野は、データ可用性の制限のために大きな課題に直面しており、他の関連するオーディオアプリケーションで成功を収めた最先端のディープラーニング手法の採用を妨げていた。
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
10個の実音響ドラムキットを用いて、各オーディオクリップを表現型ドラム演奏のMIDI記録から合成する。
合計1224時間のstemgmdは、これまでで最大のドラムのオーディオデータセットであり、カノニカルな9ピースドラムキットで各楽器用の孤立したオーディオクリップを初めて構成した。
我々は,新しい深部ドラム音源分離モデルlarsnetの開発にstemgmdを利用する。
専用U-Netのバンクを通じて、LarsNetはステレオドラムの混合物から5本の幹をリアルタイムより高速に分離することができ、最先端の非負の分光時間分解法よりも大幅に優れていることを示す。
関連論文リスト
- Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Benchmarks and leaderboards for sound demixing tasks [68.8204255655161]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Show Me the Instruments: Musical Instrument Retrieval from Mixture Audio [11.941510958668557]
これを「楽器検索」と呼ぶ。
本稿では,クエリーとして参照音楽の混合を用いて,所望の楽器を検索する手法を提案する。
提案モデルは,畳み込みニューラルネットワークに基づくシングルインスツルメンツとマルチインスツルメンツで構成されている。
論文 参考訳(メタデータ) (2022-11-15T07:32:39Z) - DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks [0.0]
本稿では、DrumGAN VSTについて述べる。DrumGAN VSTは、ジェネレーティブ・アドリアル・ネットワークを用いてドラム音を合成するためのプラグインである。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜伏空間に音をマッピングする符号化ニューラルネットワークを備えている。
論文 参考訳(メタデータ) (2022-06-29T15:44:19Z) - Conditional Drums Generation using Compound Word Representations [4.435094091999926]
複合語表現にインスパイアされた新しいデータ符号化方式を用いて、条件付きドラム生成の課題に取り組む。
本稿では,双方向長短期メモリ(BiLSTM)が条件パラメータに関する情報を受信するシーケンス・ツー・シーケンスアーキテクチャを提案する。
比較的グローバルな注目を集めたトランスフォーマーベースのデコーダが生成したドラムシーケンスを生成する。
論文 参考訳(メタデータ) (2022-02-09T13:49:27Z) - Source Separation-based Data Augmentation for Improved Joint Beat and
Downbeat Tracking [33.05612957858605]
本研究では、ブラインドドラム分離モデルを用いて、各訓練音声信号からドラムと非ドラム音を分離することを提案する。
提案手法の有効性を検証するために, 完全に見えない4つのテストセットについて実験を行った。
論文 参考訳(メタデータ) (2021-06-16T11:09:05Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Multitask learning for instrument activation aware music source
separation [83.30944624666839]
本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。
その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-03T02:35:00Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z) - Artificial Neural Networks Jamming on the Beat [20.737171876839238]
本稿では,ドラムパターンの大規模データセットと対応するメロディについて述べる。
ドラムパターンの潜伏した空間を探索すれば 特定の音楽スタイルで 新しいドラムパターンを創り出すことができます
単純な人工ニューラルネットワークは、入力として使用されるドラムパッターに対応するメロディを生成するように訓練することができる。
論文 参考訳(メタデータ) (2020-07-13T10:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。