論文の概要: Persian Musical Instruments Classification Using Polyphonic Data Augmentation
- arxiv url: http://arxiv.org/abs/2511.05717v1
- Date: Fri, 07 Nov 2025 21:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.543828
- Title: Persian Musical Instruments Classification Using Polyphonic Data Augmentation
- Title(参考訳): ポリフォニックデータ拡張を用いたペルシアの楽器分類
- Authors: Diba Hadi Esfangereh, Mohammad Hossein Sameti, Sepehr Harfi Moridani, Leili Javidpour, Mahdieh Soleymani Baghshah,
- Abstract要約: 7つの伝統的なペルシア楽器と2つの共通だが元々はペルシャ語ではない楽器を含む、孤立した記録のデータセットを新たに導入する。
本稿では,モノフォニックなサンプルからリアルなポリフォニックな混合物を生成する,文化的にインフォームドされたデータ拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 8.72752668537241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Musical instrument classification is essential for music information retrieval (MIR) and generative music systems. However, research on non-Western traditions, particularly Persian music, remains limited. We address this gap by introducing a new dataset of isolated recordings covering seven traditional Persian instruments, two common but originally non-Persian instruments (i.e., violin, piano), and vocals. We propose a culturally informed data augmentation strategy that generates realistic polyphonic mixtures from monophonic samples. Using the MERT model (Music undERstanding with large-scale self-supervised Training) with a classification head, we evaluate our approach with out-of-distribution data which was obtained by manually labeling segments of traditional songs. On real-world polyphonic Persian music, the proposed method yielded the best ROC-AUC (0.795), highlighting complementary benefits of tonal and temporal coherence. These results demonstrate the effectiveness of culturally grounded augmentation for robust Persian instrument recognition and provide a foundation for culturally inclusive MIR and diverse music generation systems.
- Abstract(参考訳): 楽器分類は音楽情報検索(MIR)と生成音楽システムに不可欠である。
しかし、非西洋の伝統、特にペルシア音楽の研究は依然として限られている。
このギャップに対処するために、従来のペルシアの楽器7つ、普通だが本来はペルシャの楽器2つ(ヴァイオリン、ピアノ、ボーカルなど)、そしてボーカルを含む孤立した録音のデータセットを導入する。
本稿では,モノフォニックなサンプルからリアルなポリフォニックな混合物を生成する,文化的にインフォームドされたデータ拡張戦略を提案する。
従来の楽曲のセグメントを手動でラベル付けすることで得られた分布外データを用いて,MERTモデル(大規模自己教師型訓練を伴わない音楽)を分類ヘッドとして評価した。
実世界のポリフォニック・ペルシャ音楽において、提案手法は最高のROC-AUC (0.795) を生み出し、音節と時間的コヒーレンスの相補的な利点を強調した。
これらの結果は,ロバストなペルシャ楽器認識のための文化的基盤強化の有効性を示し,文化的包括的MIRと多様な音楽生成システムの基礎を提供する。
関連論文リスト
- CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning [55.80320947983555]
CultureMERT-95Mは、異文化間の音楽表現学習を強化するために開発された多文化的な基礎モデルである。
650時間のマルチカルチャーデータ混合のトレーニングは、様々な西洋音楽のオートタグタスクにおいて、ROC-AUCとAPの平均4.9%の改善をもたらす。
タスク算術は、西欧以外の自動タグタスクの多文化的に訓練されたモデルと同等に機能し、西洋のデータセットに回帰しない。
論文 参考訳(メタデータ) (2025-06-21T21:16:39Z) - Recognizing Ornaments in Vocal Indian Art Music with Active Annotation [2.9219095364935885]
R=aga Ornamentation Detection (ROD) は、インドのクラシック音楽の録音を専門のミュージシャンがキュレートした新しいデータセットである。
このデータセットは、カスタムのHuman-in-the-Loopツールを使用して、イベントベースのラベルとしてマークされた6つのボーカル装飾に注釈付けされている。
我々は,長い音声録音のチャンク中に,装飾境界を保った深部時系列解析に基づく装飾検出モデルを開発した。
論文 参考訳(メタデータ) (2025-05-07T13:52:50Z) - Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。