論文の概要: Persian Musical Instruments Classification Using Polyphonic Data Augmentation
- arxiv url: http://arxiv.org/abs/2511.05717v1
- Date: Fri, 07 Nov 2025 21:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.543828
- Title: Persian Musical Instruments Classification Using Polyphonic Data Augmentation
- Title(参考訳): ポリフォニックデータ拡張を用いたペルシアの楽器分類
- Authors: Diba Hadi Esfangereh, Mohammad Hossein Sameti, Sepehr Harfi Moridani, Leili Javidpour, Mahdieh Soleymani Baghshah,
- Abstract要約: 7つの伝統的なペルシア楽器と2つの共通だが元々はペルシャ語ではない楽器を含む、孤立した記録のデータセットを新たに導入する。
本稿では,モノフォニックなサンプルからリアルなポリフォニックな混合物を生成する,文化的にインフォームドされたデータ拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 8.72752668537241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Musical instrument classification is essential for music information retrieval (MIR) and generative music systems. However, research on non-Western traditions, particularly Persian music, remains limited. We address this gap by introducing a new dataset of isolated recordings covering seven traditional Persian instruments, two common but originally non-Persian instruments (i.e., violin, piano), and vocals. We propose a culturally informed data augmentation strategy that generates realistic polyphonic mixtures from monophonic samples. Using the MERT model (Music undERstanding with large-scale self-supervised Training) with a classification head, we evaluate our approach with out-of-distribution data which was obtained by manually labeling segments of traditional songs. On real-world polyphonic Persian music, the proposed method yielded the best ROC-AUC (0.795), highlighting complementary benefits of tonal and temporal coherence. These results demonstrate the effectiveness of culturally grounded augmentation for robust Persian instrument recognition and provide a foundation for culturally inclusive MIR and diverse music generation systems.
- Abstract(参考訳): 楽器分類は音楽情報検索(MIR)と生成音楽システムに不可欠である。
しかし、非西洋の伝統、特にペルシア音楽の研究は依然として限られている。
このギャップに対処するために、従来のペルシアの楽器7つ、普通だが本来はペルシャの楽器2つ(ヴァイオリン、ピアノ、ボーカルなど)、そしてボーカルを含む孤立した録音のデータセットを導入する。
本稿では,モノフォニックなサンプルからリアルなポリフォニックな混合物を生成する,文化的にインフォームドされたデータ拡張戦略を提案する。
従来の楽曲のセグメントを手動でラベル付けすることで得られた分布外データを用いて,MERTモデル(大規模自己教師型訓練を伴わない音楽)を分類ヘッドとして評価した。
実世界のポリフォニック・ペルシャ音楽において、提案手法は最高のROC-AUC (0.795) を生み出し、音節と時間的コヒーレンスの相補的な利点を強調した。
これらの結果は,ロバストなペルシャ楽器認識のための文化的基盤強化の有効性を示し,文化的包括的MIRと多様な音楽生成システムの基礎を提供する。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning [55.80320947983555]
CultureMERT-95Mは、異文化間の音楽表現学習を強化するために開発された多文化的な基礎モデルである。
650時間のマルチカルチャーデータ混合のトレーニングは、様々な西洋音楽のオートタグタスクにおいて、ROC-AUCとAPの平均4.9%の改善をもたらす。
タスク算術は、西欧以外の自動タグタスクの多文化的に訓練されたモデルと同等に機能し、西洋のデータセットに回帰しない。
論文 参考訳(メタデータ) (2025-06-21T21:16:39Z) - Recognizing Ornaments in Vocal Indian Art Music with Active Annotation [2.9219095364935885]
R=aga Ornamentation Detection (ROD) は、インドのクラシック音楽の録音を専門のミュージシャンがキュレートした新しいデータセットである。
このデータセットは、カスタムのHuman-in-the-Loopツールを使用して、イベントベースのラベルとしてマークされた6つのボーカル装飾に注釈付けされている。
我々は,長い音声録音のチャンク中に,装飾境界を保った深部時系列解析に基づく装飾検出モデルを開発した。
論文 参考訳(メタデータ) (2025-05-07T13:52:50Z) - Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - Low-Data Classification of Historical Music Manuscripts: A Few-Shot Learning Approach [0.0]
歴史的写本における記号分類のための自己指導型学習フレームワークを開発した。
この課題を克服するために、ニューラルネットワークによる特徴抽出器を非ラベルデータでトレーニングし、最小限のサンプルで効果的な分類を可能にする。
論文 参考訳(メタデータ) (2024-11-25T14:14:25Z) - From West to East: Who can understand the music of the others better? [91.78564268397139]
我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。
西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
論文 参考訳(メタデータ) (2023-07-19T07:29:14Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - ChMusic: A Traditional Chinese Music Dataset for Evaluation of
Instrument Recognition [4.761003763008295]
本稿では,ChMusicという学習モデルと演奏評価のための中国の伝統音楽データセットを提案する。
このデータセットは無料で公開されており、このデータセットには11の中国伝統楽器と55の中国伝統音楽の抜粋が記録されている。
論文 参考訳(メタデータ) (2021-08-19T03:26:32Z) - Incorporating Music Knowledge in Continual Dataset Augmentation for
Music Generation [69.06413031969674]
Aug-Genは、リソース制約のあるドメインでトレーニングされた任意の音楽生成システムに対するデータセット拡張の方法である。
我々は、Aug-Gen をトランスフォーマーベースのコラール生成に J.S. Bach のスタイルで適用し、これによりより長いトレーニングが可能となり、より優れた生成出力が得られることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。