論文の概要: The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separation and Information Retrieval
- arxiv url: http://arxiv.org/abs/2511.21247v1
- Date: Wed, 26 Nov 2025 10:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.057876
- Title: The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separation and Information Retrieval
- Title(参考訳): Spheres Dataset: 音源分離と情報検索のためのマルチトラックオーケストラ録音
- Authors: Jaime Garcia-Martinez, David Diaz-Guerra, John Anderson, Ricardo Falcon-Perez, Pablo Cabañas-Molero, Tuomas Virtanen, Julio J. Carabias-Orti, Pedro Vera-Candeas,
- Abstract要約: データセットは、Colibr Ensembleによって演奏された1時間以上の楽曲の記録で構成されている。
録音装置には23のマイクが使われており、その中にはクローズスポット、メインマイク、周囲マイクが含まれていた。
室内のインパルス応答を各楽器位置で推定し, 録音空間の音響的評価を行った。
- 参考スコア(独自算出の注目度): 6.642819140716501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces The Spheres dataset, multitrack orchestral recordings designed to advance machine learning research in music source separation and related MIR tasks within the classical music domain. The dataset is composed of over one hour recordings of musical pieces performed by the Colibrì Ensemble at The Spheres recording studio, capturing two canonical works - Tchaikovsky's Romeo and Juliet and Mozart's Symphony No. 40 - along with chromatic scales and solo excerpts for each instrument. The recording setup employed 23 microphones, including close spot, main, and ambient microphones, enabling the creation of realistic stereo mixes with controlled bleeding and providing isolated stems for supervised training of source separation models. In addition, room impulse responses were estimated for each instrument position, offering valuable acoustic characterization of the recording space. We present the dataset structure, acoustic analysis, and baseline evaluations using X-UMX based models for orchestral family separation and microphone debleeding. Results highlight both the potential and the challenges of source separation in complex orchestral scenarios, underscoring the dataset's value for benchmarking and for exploring new approaches to separation, localization, dereverberation, and immersive rendering of classical music.
- Abstract(参考訳): 本稿では,古典音楽領域における音源分離と関連するMIRタスクにおける機械学習研究の進展を目的とした,マルチトラックオーケストレータであるThe Spheresデータセットを紹介する。
このデータセットは、チャイコフスキーの『ロメオ』と『ジュリエット』と『モーツァルトの交響曲第40番』の2つのカノニカルな作品と、各楽器の彩色階とソロの抜粋を収録する『The Spheres』録音スタジオでコリベ・アンサンブルが演奏した1時間以上の楽曲の録音で構成されている。
録音装置には23個のマイクが使われており、その中にはクローズスポット、メインマイク、周囲マイクが含まれており、コントロールされた出血を伴うリアルなステレオミックスの作成を可能にし、ソース分離モデルの教師付きトレーニングのための独立したステムを提供する。
さらに,各楽器位置について室内インパルス応答を推定し,録音空間の音響的評価を行った。
本稿では,X-UMXモデルを用いたデータセット構造,音響解析,ベースライン評価について述べる。
結果は、複雑なオーケストラシナリオにおけるソース分離の可能性と課題の両方を強調し、ベンチマークのためのデータセットの価値を強調し、分離、ローカライゼーション、デリバベーション、古典音楽の没入的なレンダリングに対する新しいアプローチを探求する。
関連論文リスト
- PianoVAM: A Multimodal Piano Performance Dataset [56.318475235705954]
PianoVAMは、ビデオ、オーディオ、MIDI、手のランドマーク、指のラベル、リッチメタデータを含む包括的なピアノパフォーマンスデータセットである。
データセットはディクラヴィエピアノを使用して録音され、アマチュアピアニストの日々の練習セッション中にオーディオとMIDIをキャプチャした。
事前訓練されたポーズ推定モデルと半自動指先アノテーションアルゴリズムを用いて,手指のランドマークと指先ラベルを抽出した。
論文 参考訳(メタデータ) (2025-09-10T17:35:58Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - Score-informed Music Source Separation: Improving Synthetic-to-real Generalization in Classical Music [8.468436398420764]
音源分離は、楽器の混合物を構成トラックに分離する作業である。
本稿では,楽譜の分離を支援する2つの方法として,楽譜情報モデルと楽譜情報のみのモデルを提案する。
スコアインフォームドモデルは、ベースラインアプローチと比較して分離結果を改善するが、合成データから実データへの一般化に苦慮する。
論文 参考訳(メタデータ) (2025-03-10T14:08:31Z) - Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。
音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。
本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-27T16:13:50Z) - SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation [7.428668206443388]
そこで本研究では,シミュレーション手法を用いて現実的なトレーニングセットを作成する,SynthSODと呼ばれる新しいマルチトラックデータセットを提案する。
合成データセットw.r.tをトレーニングしたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実演する。
論文 参考訳(メタデータ) (2024-09-17T08:58:33Z) - COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations [17.218899140175697]
COCOLAは、サンプル間の調和的・リズム的コヒーレンスをキャプチャする、音響音響表現の対照的な学習方法である。
本手法は,音楽トラックを構成する幹のレベルで動作し,ハーモニック・パーカッッシブ分離(HPS)によって得られる特徴を入力できる。
論文 参考訳(メタデータ) (2024-04-25T18:42:25Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。