論文の概要: SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation
- arxiv url: http://arxiv.org/abs/2409.10995v1
- Date: Tue, 17 Sep 2024 08:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 17:28:59.432625
- Title: SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation
- Title(参考訳): SynthSOD:オーケストラ音源分離のための不均一データセットの開発
- Authors: Jaime Garcia-Martinez, David Diaz-Guerra, Archontis Politis, Tuomas Virtanen, Julio J. Carabias-Orti, Pedro Vera-Candeas,
- Abstract要約: そこで本研究では,シミュレーション手法を用いて現実的なトレーニングセットを作成する,SynthSODと呼ばれる新しいマルチトラックデータセットを提案する。
合成データセットw.r.tをトレーニングしたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実演する。
- 参考スコア(独自算出の注目度): 7.428668206443388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in music source separation have significantly progressed, particularly in isolating vocals, drums, and bass elements from mixed tracks. These developments owe much to the creation and use of large-scale, multitrack datasets dedicated to these specific components. However, the challenge of extracting similarly sounding sources from orchestra recordings has not been extensively explored, largely due to a scarcity of comprehensive and clean (i.e bleed-free) multitrack datasets. In this paper, we introduce a novel multitrack dataset called SynthSOD, developed using a set of simulation techniques to create a realistic (i.e. using high-quality soundfonts), musically motivated, and heterogeneous training set comprising different dynamics, natural tempo changes, styles, and conditions. Moreover, we demonstrate the application of a widely used baseline music separation model trained on our synthesized dataset w.r.t to the well-known EnsembleSet, and evaluate its performance under both synthetic and real-world conditions.
- Abstract(参考訳): 音源分離の最近の進歩は、特に混合トラックからのボーカル、ドラム、ベース要素の分離において顕著に進展している。
これらの開発は、これらの特定のコンポーネント専用の大規模マルチトラックデータセットの作成と使用に大きく依存している。
しかし、オーケストラ録音から同様の音源を抽出するという課題は、包括的でクリーンな(出血のない)マルチトラックデータセットが不足していることから、広く検討されていない。
本稿では,SynthSODと呼ばれる新しいマルチトラック・データセットについて紹介する。このデータセットは,様々な力学,自然テンポの変化,スタイル,条件を含む,リアルな(高品質なサウンドフォントを用いた)トレーニングセットを作成するためのシミュレーション手法を用いて開発されている。
さらに、我々の合成データセットw.r.tで訓練されたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実証し、その性能を合成と実環境の両方で評価する。
関連論文リスト
- Analyzing and reducing the synthetic-to-real transfer gap in Music Information Retrieval: the task of automatic drum transcription [0.6554326244334866]
データ量を増やすために使われる一般的な方法は、仮想楽器でレンダリングされた楽譜から合成的にデータを生成することである。
この方法では、ほぼ無限のトラックを生成できるが、以前に作成された合成データセットで訓練されたモデルが実際のトラックにうまく転送されないことを示す実証的な証拠がある。
本研究では,データ量の増加に加えて,実践者が生成したデータの現実性を改善するために利用できる3つの戦略を特定し,評価する。
論文 参考訳(メタデータ) (2024-07-29T09:17:16Z) - Naturalistic Music Decoding from EEG Data via Latent Diffusion Models [14.882764251306094]
本研究は,非侵襲的脳波データを用いて,高品質な音楽再生を実現するための最初の試みである。
我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
論文 参考訳(メタデータ) (2024-05-15T03:26:01Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Toward Deep Drum Source Separation [52.01259769265708]
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
論文 参考訳(メタデータ) (2023-12-15T10:23:07Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music
Generation [20.733264277770154]
JEN-1 Composerは、マルチトラック音楽上の限界分布、条件分布、共同分布を効率的にモデル化するための統一されたフレームワークである。
単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。
制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Conditional Drums Generation using Compound Word Representations [4.435094091999926]
複合語表現にインスパイアされた新しいデータ符号化方式を用いて、条件付きドラム生成の課題に取り組む。
本稿では,双方向長短期メモリ(BiLSTM)が条件パラメータに関する情報を受信するシーケンス・ツー・シーケンスアーキテクチャを提案する。
比較的グローバルな注目を集めたトランスフォーマーベースのデコーダが生成したドラムシーケンスを生成する。
論文 参考訳(メタデータ) (2022-02-09T13:49:27Z) - Multitask learning for instrument activation aware music source
separation [83.30944624666839]
本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。
その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-03T02:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。