Fugu-MT 論文翻訳(概要): Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

論文の概要: Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

arxiv url: http://arxiv.org/abs/2605.14765v1
Date: Thu, 14 May 2026 12:31:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.818994
Title: Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music
Title（参考訳）: ペルシャ・ミュージックGen:ペルシア音楽のための大規模データセットと文化的に認識された生成モデル
Authors: Mohammad Hossein Sameti, Diba Hadi Esfangereh, Sepehr Harfi Moridani, Leili Javidpour, Mahdieh Soleymani Baghshah,
Abstract要約: 私たちは、900時間以上の高品質なオーディオサンプルを含むペルシアの歌の最初の大規模なデータセットをキュレートしました。このデータセットはペルシア音楽の豊かな旋律と文化の多様性を捉えている。我々はMusicGenをこの領域に適応させ、主観的および客観的なメトリクスを利用してそのパフォーマンスを評価する。
参考スコア（独自算出の注目度）: 8.72752668537241
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Persian music, with its unique tonalities, modal systems (Dastgah), and rhythmic structures, presents significant challenges for music generation models trained primarily on Western music. We address this gap by curating the first large-scale dataset of Persian songs, comprising over 900 hours high-quality audio samples across diverse sub-genres, including pop, traditional, and contemporary styles. This dataset captures the rich melodic and cultural diversity of Persian music and serves as the foundation for fine-tuning MusicGen, a state-of-the-art generative music model. We adapt MusicGen to this domain and evaluate its performance by utilizing subjective and objective metrics. To assess the semantic alignment between generated music and intended style tags, we report the proportion of relevant tags accurately reflected in the generated outputs. Our results demonstrate that the fine-tuned model produces compositions that more align with Persian stylistic conventions. This work introduces a new resource for generative music research and illustrates the adaptability of music generation models to underrepresented cultural and linguistic contexts.
Abstract（参考訳）: ペルシア音楽は独特の音節、モーダル・システム(ダストガ)、リズミカルな構造を持ち、主に西洋音楽に基づいて訓練された音楽生成モデルに大きな課題を呈している。このギャップに対処するため、ペルシャ歌の最初の大規模なデータセットをキュレートし、ポップ、伝統、現代スタイルを含む様々なサブジャンルで900時間以上の高品質なオーディオサンプルを作成しました。このデータセットはペルシア音楽の豊かなメロディと文化の多様性を捉え、最先端のジェネレーティブ・ミュージック・モデルであるMusicGenを微調整する基盤となっている。我々はMusicGenをこの領域に適応させ、主観的および客観的なメトリクスを利用してそのパフォーマンスを評価する。生成した音楽と意図したスタイルタグのセマンティックアライメントを評価するために,生成した出力に正確に反映された関連タグの割合を報告する。以上の結果から, 微調整モデルにより, ペルシャの様式的慣行とより整合した構成が生み出されることが示唆された。本研究は、生成音楽研究のための新たな資源を導入し、音楽生成モデルの文化的・言語的文脈への適応性を示す。

関連論文リスト

Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文参考訳（メタデータ） (2025-11-13T13:21:09Z)
Persian Musical Instruments Classification Using Polyphonic Data Augmentation [8.72752668537241]
7つの伝統的なペルシア楽器と2つの共通だが元々はペルシャ語ではない楽器を含む、孤立した記録のデータセットを新たに導入する。本稿では,モノフォニックなサンプルからリアルなポリフォニックな混合物を生成する,文化的にインフォームドされたデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2025-11-07T21:18:42Z)
Bias beyond Borders: Global Inequalities in AI-Generated Music [39.80452596611506]
GlobalDISCOは、最先端の商用生成音楽モデルによって生成される73k曲からなる大規模なデータセットである。データセットは147言語で、MusicBrainzとWikipediaから抽出された音楽スタイルのプロンプトを含んでいる。データセットは世界的なバランスが取れており、79か国、5大陸のアーティストたちの音楽スタイルを表している。
論文参考訳（メタデータ） (2025-10-02T12:33:10Z)
Universal Music Representations? Evaluating Foundation Models on World Music Corpora [65.72891334156706]
ファンデーションモデルは音楽情報検索に革命をもたらしたが、一般化する能力については疑問が残る。本稿では,6つの音楽コーパスにまたがる5つの最先端オーディオ基礎モデルの包括的評価を行う。
論文参考訳（メタデータ） (2025-06-20T15:06:44Z)
Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文参考訳（メタデータ） (2025-02-11T07:46:29Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文参考訳（メタデータ） (2022-11-21T14:15:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。