論文の概要: Sanidha: A Studio Quality Multi-Modal Dataset for Carnatic Music
- arxiv url: http://arxiv.org/abs/2501.06959v1
- Date: Sun, 12 Jan 2025 22:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:20:30.767534
- Title: Sanidha: A Studio Quality Multi-Modal Dataset for Carnatic Music
- Title(参考訳): Sanidha:カーネティック・ミュージックのためのスタジオ品質マルチモーダル・データセット
- Authors: Venkatakrishnan Vaidyanathapuram Krishnan, Noel Alben, Anish Nair, Nathaniel Condit-Schultz,
- Abstract要約: 音源分離は、楽曲を個々の音源に分解する。
最も一般的なデータセットは、商業的な西洋音楽から作られる。
「サニダ」は、カルナティック音楽のための最初のオープンソース・ノベル・データセットである。
- 参考スコア(独自算出の注目度): 0.8437187555622164
- License:
- Abstract: Music source separation demixes a piece of music into its individual sound sources (vocals, percussion, melodic instruments, etc.), a task with no simple mathematical solution. It requires deep learning methods involving training on large datasets of isolated music stems. The most commonly available datasets are made from commercial Western music, limiting the models' applications to non-Western genres like Carnatic music. Carnatic music is a live tradition, with the available multi-track recordings containing overlapping sounds and bleeds between the sources. This poses a challenge to commercially available source separation models like Spleeter and Hybrid Demucs. In this work, we introduce 'Sanidha', the first open-source novel dataset for Carnatic music, offering studio-quality, multi-track recordings with minimal to no overlap or bleed. Along with the audio files, we provide high-definition videos of the artists' performances. Additionally, we fine-tuned Spleeter, one of the most commonly used source separation models, on our dataset and observed improved SDR performance compared to fine-tuning on a pre-existing Carnatic multi-track dataset. The outputs of the fine-tuned model with 'Sanidha' are evaluated through a listening study.
- Abstract(参考訳): 音源分離は、曲を個々の音源(ボーカル、パーカッション、メロディック楽器など)に分解する。
孤立した音楽幹の大規模なデータセットのトレーニングを含む深層学習手法が必要である。
最も一般的なデータセットは、商用の西洋音楽から作られており、モデルの適用をカルナティック音楽のような西洋以外のジャンルに限定している。
カーナティック・ミュージックはライブの伝統であり、ソース間で重なり合う音と出血を含むマルチトラック録音が利用可能である。
これは、SpleeterやHybrid Demucsのような商用で利用可能なソース分離モデルに課題をもたらす。
本研究では,カーナティック・ミュージックのための初のオープンソース・ノベル・データセットである「サニダ」を紹介する。
オーディオファイルとともに、アーティストの演奏の高精細な映像を提供する。
さらに、我々のデータセット上で最もよく使われているソース分離モデルの一つであるSpleeterを微調整し、既存のカーナティックマルチトラックデータセットの微調整と比較してSDR性能の改善を観察した。
また,「サニダ」を用いた微調整モデルの出力を聴取実験により評価した。
関連論文リスト
- SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation [7.428668206443388]
そこで本研究では,シミュレーション手法を用いて現実的なトレーニングセットを作成する,SynthSODと呼ばれる新しいマルチトラックデータセットを提案する。
合成データセットw.r.tをトレーニングしたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実演する。
論文 参考訳(メタデータ) (2024-09-17T08:58:33Z) - Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks [18.95453617434051]
音楽レコメンデータシステムは、しばしばネットワークベースのモデルを使用して、楽曲、アーティスト、ユーザー間の関係をキャプチャする。
新しい音楽作品やアーティストは、初期情報が不十分なため、コールドスタートの問題に直面することが多い。
これを解決するために、音楽から直接コンテンツベースの情報を抽出し、協調フィルタリングに基づく手法を強化する。
論文 参考訳(メタデータ) (2024-09-13T17:53:06Z) - Benchmarking Sub-Genre Classification For Mainstage Dance Music [6.042939894766715]
この研究は、新しいデータセットとベースラインからなる新しいベンチマークを導入する。
我々のデータセットは、世界中の音楽祭のトップDJによる最新のメインステージのライブセットをカバーするために、サブジャンルの数を拡張しています。
ベースラインとして,現在最先端のマルチモデル言語モデルよりも優れたディープラーニングモデルを開発した。
論文 参考訳(メタデータ) (2024-09-10T17:54:00Z) - Multi-Source Music Generation with Latent Diffusion [7.832209959041259]
マルチソース拡散モデル (Multi-Source Diffusion Model, MDM) は、複数の音源の混合として音楽をモデル化することを提案した。
MSLDMは変分オートエンコーダ(VAE)を使用して、各機器のソースを別個の潜在表現にエンコードする。
このアプローチは音楽の総生成と部分生成を大幅に強化する。
論文 参考訳(メタデータ) (2024-09-10T03:41:10Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - From West to East: Who can understand the music of the others better? [91.78564268397139]
我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。
西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
論文 参考訳(メタデータ) (2023-07-19T07:29:14Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。