論文の概要: Foundation Models for Music: A Survey
- arxiv url: http://arxiv.org/abs/2408.14340v3
- Date: Tue, 3 Sep 2024 14:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 16:21:29.742110
- Title: Foundation Models for Music: A Survey
- Title(参考訳): Foundation Models for Music: A Survey
- Authors: Yinghao Ma, Anders Øland, Anton Ragni, Bleiz MacSen Del Sette, Charalampos Saitis, Chris Donahue, Chenghua Lin, Christos Plachouras, Emmanouil Benetos, Elona Shatri, Fabio Morreale, Ge Zhang, György Fazekas, Gus Xia, Huan Zhang, Ilaria Manco, Jiawen Huang, Julien Guinot, Liwei Lin, Luca Marinelli, Max W. Y. Lam, Megha Sharma, Qiuqiang Kong, Roger B. Dannenberg, Ruibin Yuan, Shangda Wu, Shih-Lun Wu, Shuqi Dai, Shun Lei, Shiyin Kang, Simon Dixon, Wenhu Chen, Wenhao Huang, Xingjian Du, Xingwei Qu, Xu Tan, Yizhi Li, Zeyue Tian, Zhiyong Wu, Zhizheng Wu, Ziyang Ma, Ziyu Wang,
- Abstract要約: ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
- 参考スコア(独自算出の注目度): 77.77088584651268
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm.
- Abstract(参考訳): 近年,大規模言語モデル (LLMs) や潜在拡散モデル (LDMs) といった基礎モデル (FMs) が音楽など様々な分野に多大な影響を与えている。
本総説では、表現学習、生成学習、マルチモーダル学習にまたがる、最先端(SOTA)事前学習モデルと音楽基礎モデルについて概観する。
まず,音楽産業における音楽の重要性を文脈化し,音楽におけるAIの進化を辿る。
ファンデーションモデルが対象とするモダリティを記述することにより、FM開発において多くの音楽表現が過小評価されていることを明らかにする。
そして,音楽理解,生成,医療応用におけるFMの可能性とともに,様々な音楽応用における従来の手法の汎用性の欠如に重点を置いている。
モデル事前学習のパラダイム、アーキテクチャの選択、トークン化、微調整の方法論、制御可能性の詳細を包括的に調べることで、命令チューニングやコンテキスト内学習、法則のスケーリング、創発的能力、そして長いシーケンスモデリングなど、十分に検討すべき重要なトピックを強調します。
専門のセクションでは、音楽エージェントへの洞察を提示し、データセットの徹底的な分析と、事前学習および下流タスクに不可欠な評価を添える。
最後に、倫理的考察の重要さを強調することによって、音楽におけるFM研究は、解釈可能性、透明性、人的責任、著作権問題といった問題にもっと焦点をあてるべきである、と提唱する。
本稿では,音楽分野における人間とAIの連携の軌跡を形成することを目的として,音楽分野におけるFMの今後の課題と動向について考察する。
関連論文リスト
- A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。
音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (2024-09-15T03:34:14Z) - Prevailing Research Areas for Music AI in the Era of Foundation Models [8.067636023395236]
過去数年間、生成的音楽AIアプリケーションが急増している。
音楽データセットの現状とその限界について論じる。
複数のモダリティへの拡張とアーティストのワークフローとの統合に向けて,これらの生成モデルの応用を強調した。
論文 参考訳(メタデータ) (2024-09-14T09:06:43Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - The Music Meta Ontology: a flexible semantic model for the
interoperability of music metadata [0.39373541926236766]
アーティスト,作曲,演奏,録音,リンクに関連する音楽メタデータを記述するために,音楽メタオントロジーを導入する。
モデルの最初の評価、他のスキーマへのアライメント、データ変換のサポートを提供します。
論文 参考訳(メタデータ) (2023-11-07T12:35:15Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。