論文の概要: Music for All: Exploring Multicultural Representations in Music Generation Models (Camera Ready)
- arxiv url: http://arxiv.org/abs/2502.07328v1
- Date: Tue, 11 Feb 2025 07:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:28.505838
- Title: Music for All: Exploring Multicultural Representations in Music Generation Models (Camera Ready)
- Title(参考訳): Music for All:Exploring Multi cultural Representations in Music Generation Models (Camera Ready)
- Authors: Atharva Mehta, Shivam Chauhan, Amirbek Djanibekov, Atharva Kulkarni, Gus Xia, Monojit Choudhury,
- Abstract要約: 本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
- 参考スコア(独自算出の注目度): 13.568559786822457
- License:
- Abstract: The advent of Music-Language Models has greatly enhanced the automatic music generation capability of AI systems, but they are also limited in their coverage of the musical genres and cultures of the world. We present a study of the datasets and research papers for music generation and quantify the bias and under-representation of genres. We find that only 5.7% of the total hours of existing music datasets come from non-Western genres, which naturally leads to disparate performance of the models across genres. We then investigate the efficacy of Parameter-Efficient Fine-Tuning (PEFT) techniques in mitigating this bias. Our experiments with two popular models -- MusicGen and Mustango, for two underrepresented non-Western music traditions -- Hindustani Classical and Turkish Makam music, highlight the promises as well as the non-triviality of cross-genre adaptation of music through small datasets, implying the need for more equitable baseline music-language models that are designed for cross-cultural transfer learning.
- Abstract(参考訳): 音楽言語モデルの出現は、AIシステムの自動音楽生成能力を大幅に向上させたが、世界の音楽ジャンルや文化のカバー範囲も限られている。
本稿では、音楽生成のためのデータセットと研究論文について研究し、ジャンルの偏見と下層表現を定量化する。
既存の音楽データセットの合計時間は5.7%しか西洋以外のジャンルから来ていないことが判明した。
次に,パラメータ効率の良いファインチューニング(PEFT)技術を用いて,このバイアスを緩和する方法について検討する。
音楽GenとMustangoの2つのポピュラーなモデルによる実験は、ヒンズーニ古典音楽とトルコのマカム音楽の2つの過小評価された非西洋音楽の伝統に対して、その約束と、小さなデータセットを通して音楽のクロスジャンル適応の非自明さを強調し、異文化間移動学習用に設計されたより平等なベースライン音楽言語モデルの必要性を示唆している。
関連論文リスト
- Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - From West to East: Who can understand the music of the others better? [91.78564268397139]
我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。
西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
論文 参考訳(メタデータ) (2023-07-19T07:29:14Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Transfer Learning for Underrepresented Music Generation [0.9645196221785693]
我々は,イランの民謡を,大規模な生成音楽モデルであるMusicVAEのOODジャンルの例とみなす。
イランのフォーク・ミュージック・データセットにMusicVAEを効率よく適応させることで、将来、あまり表現されていない音楽ジャンルを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-01T01:53:10Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。
10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文 参考訳(メタデータ) (2021-05-10T23:43:00Z) - Modeling the Music Genre Perception across Language-Bound Cultures [10.223656553455003]
本研究では,言語横断・文化特化音楽ジャンルアノテーションの実現可能性について検討する。
教師なしの言語間音楽ジャンルのアノテーションは高い精度で実現可能であることを示す。
我々は,多言語事前学習型埋め込みモデルのベンチマークを行うために,新しいドメイン依存型言語間コーパスを導入する。
論文 参考訳(メタデータ) (2020-10-13T12:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。