Fugu-MT 論文翻訳(概要): Music for All: Exploring Multicultural Representations in Music Generation Models (Camera Ready)

論文の概要: Music for All: Exploring Multicultural Representations in Music Generation Models (Camera Ready)

arxiv url: http://arxiv.org/abs/2502.07328v1
Date: Tue, 11 Feb 2025 07:46:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.052226
Title: Music for All: Exploring Multicultural Representations in Music Generation Models (Camera Ready)
Title（参考訳）: Music for All:Exploring Multi cultural Representations in Music Generation Models (Camera Ready)
Authors: Atharva Mehta, Shivam Chauhan, Amirbek Djanibekov, Atharva Kulkarni, Gus Xia, Monojit Choudhury,
Abstract要約: 本稿では,音楽生成のためのデータセットと研究論文について述べる。既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
参考スコア（独自算出の注目度）: 13.568559786822457
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The advent of Music-Language Models has greatly enhanced the automatic music generation capability of AI systems, but they are also limited in their coverage of the musical genres and cultures of the world. We present a study of the datasets and research papers for music generation and quantify the bias and under-representation of genres. We find that only 5.7% of the total hours of existing music datasets come from non-Western genres, which naturally leads to disparate performance of the models across genres. We then investigate the efficacy of Parameter-Efficient Fine-Tuning (PEFT) techniques in mitigating this bias. Our experiments with two popular models -- MusicGen and Mustango, for two underrepresented non-Western music traditions -- Hindustani Classical and Turkish Makam music, highlight the promises as well as the non-triviality of cross-genre adaptation of music through small datasets, implying the need for more equitable baseline music-language models that are designed for cross-cultural transfer learning.
Abstract（参考訳）: 音楽言語モデルの出現は、AIシステムの自動音楽生成能力を大幅に向上させたが、世界の音楽ジャンルや文化のカバー範囲も限られている。本稿では、音楽生成のためのデータセットと研究論文について研究し、ジャンルの偏見と下層表現を定量化する。既存の音楽データセットの合計時間は5.7%しか西洋以外のジャンルから来ていないことが判明した。次に,パラメータ効率の良いファインチューニング(PEFT)技術を用いて,このバイアスを緩和する方法について検討する。音楽GenとMustangoの2つのポピュラーなモデルによる実験は、ヒンズーニ古典音楽とトルコのマカム音楽の2つの過小評価された非西洋音楽の伝統に対して、その約束と、小さなデータセットを通して音楽のクロスジャンル適応の非自明さを強調し、異文化間移動学習用に設計されたより平等なベースライン音楽言語モデルの必要性を示唆している。

関連論文リスト

Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文参考訳（メタデータ） (2025-11-13T13:21:09Z)
Bias beyond Borders: Global Inequalities in AI-Generated Music [39.80452596611506]
GlobalDISCOは、最先端の商用生成音楽モデルによって生成される73k曲からなる大規模なデータセットである。データセットは147言語で、MusicBrainzとWikipediaから抽出された音楽スタイルのプロンプトを含んでいる。データセットは世界的なバランスが取れており、79か国、5大陸のアーティストたちの音楽スタイルを表している。
論文参考訳（メタデータ） (2025-10-02T12:33:10Z)
CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning [55.80320947983555]
CultureMERT-95Mは、異文化間の音楽表現学習を強化するために開発された多文化的な基礎モデルである。 650時間のマルチカルチャーデータ混合のトレーニングは、様々な西洋音楽のオートタグタスクにおいて、ROC-AUCとAPの平均4.9%の改善をもたらす。タスク算術は、西欧以外の自動タグタスクの多文化的に訓練されたモデルと同等に機能し、西洋のデータセットに回帰しない。
論文参考訳（メタデータ） (2025-06-21T21:16:39Z)
Universal Music Representations? Evaluating Foundation Models on World Music Corpora [65.72891334156706]
ファンデーションモデルは音楽情報検索に革命をもたらしたが、一般化する能力については疑問が残る。本稿では,6つの音楽コーパスにまたがる5つの最先端オーディオ基礎モデルの包括的評価を行う。
論文参考訳（メタデータ） (2025-06-20T15:06:44Z)
Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文参考訳（メタデータ） (2024-08-26T15:13:14Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
From West to East: Who can understand the music of the others better? [91.78564268397139]
我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。 CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
論文参考訳（メタデータ） (2023-07-19T07:29:14Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Transfer Learning for Underrepresented Music Generation [0.9645196221785693]
我々は,イランの民謡を,大規模な生成音楽モデルであるMusicVAEのOODジャンルの例とみなす。イランのフォーク・ミュージック・データセットにMusicVAEを効率よく適応させることで、将来、あまり表現されていない音楽ジャンルを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2023-06-01T01:53:10Z)
A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文参考訳（メタデータ） (2022-11-21T14:15:43Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。 10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文参考訳（メタデータ） (2021-05-10T23:43:00Z)
Modeling the Music Genre Perception across Language-Bound Cultures [10.223656553455003]
本研究では,言語横断・文化特化音楽ジャンルアノテーションの実現可能性について検討する。教師なしの言語間音楽ジャンルのアノテーションは高い精度で実現可能であることを示す。我々は,多言語事前学習型埋め込みモデルのベンチマークを行うために,新しいドメイン依存型言語間コーパスを導入する。
論文参考訳（メタデータ） (2020-10-13T12:20:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。