論文の概要: MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization
- arxiv url: http://arxiv.org/abs/2501.01108v1
- Date: Thu, 02 Jan 2025 07:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:18.665586
- Title: MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization
- Title(参考訳): MuQ:メル残留ベクトル量子化による自己教師付き音楽表現学習
- Authors: Haina Zhu, Yizhi Zhou, Hangting Chen, Jianwei Yu, Ziyang Ma, Rongzhi Gu, Wei Tan, Xie Chen,
- Abstract要約: 音楽理解のための自己教師付き音楽表現学習モデルを提案する。
MuQはMel Residual Vector Quantization(Mel-RVQ)によって生成されるトークンを予測するために訓練される
様々なダウンストリームタスクの実験では、MuQが以前の自己教師付き音楽表現モデルより優れていたことが示されている。
- 参考スコア(独自算出の注目度): 19.79566054207038
- License:
- Abstract: Recent years have witnessed the success of foundation models pre-trained with self-supervised learning (SSL) in various music informatics understanding tasks, including music tagging, instrument classification, key detection, and more. In this paper, we propose a self-supervised music representation learning model for music understanding. Distinguished from previous studies adopting random projection or existing neural codec, the proposed model, named MuQ, is trained to predict tokens generated by Mel Residual Vector Quantization (Mel-RVQ). Our Mel-RVQ utilizes residual linear projection structure for Mel spectrum quantization to enhance the stability and efficiency of target extraction and lead to better performance. Experiments in a large variety of downstream tasks demonstrate that MuQ outperforms previous self-supervised music representation models with only 0.9K hours of open-source pre-training data. Scaling up the data to over 160K hours and adopting iterative training consistently improve the model performance. To further validate the strength of our model, we present MuQ-MuLan, a joint music-text embedding model based on contrastive learning, which achieves state-of-the-art performance in the zero-shot music tagging task on the MagnaTagATune dataset. Code and checkpoints are open source in https://github.com/tencent-ailab/MuQ.
- Abstract(参考訳): 近年、音楽タギング、楽器分類、鍵検出など、音楽情報学の様々なタスクにおいて、自己教師付き学習(SSL)で事前訓練された基礎モデルの成功を目の当たりにしている。
本稿では,音楽理解のための自己指導型音楽表現学習モデルを提案する。
従来のランダムプロジェクションや既存のニューラルコーデックを用いた研究とは違って、Mel Residual Vector Quantization(Mel-RVQ)によって生成されるトークンを予測するために、MuQと呼ばれるモデルが訓練されている。
我々のMel-RVQは、Melスペクトル量子化の線形射影構造を利用して、ターゲット抽出の安定性と効率を高め、より良い性能を実現する。
様々なダウンストリームタスクの実験では、MuQは、オープンソースの事前学習データの0.9K時間で、以前のセルフ教師付き音楽表現モデルより優れていた。
データを160K時間以上にスケールアップし、反復的なトレーニングを採用することで、モデルのパフォーマンスが一貫して向上する。
本モデルの有効性をさらに検証するため,MagnaTagATuneデータセット上のゼロショット音楽タギングタスクにおける最先端のパフォーマンスを実現する,コントラスト学習に基づく共同音楽テキスト埋め込みモデルであるMuQ-MuLanを提案する。
コードとチェックポイントはhttps://github.com/tencent-ailab/MuQ.comで公開されている。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Spectrograms Are Sequences of Patches [5.253100011321437]
我々は、音楽のスペクトログラムを一連のパッチとしてキャプチャする自己教師型モデルを設計する。
事前学習にはラベル付きデータを使用しず、16k曲のクリップを含むMTATデータセットのサブセットのみを使用します。
本モデルは,他の音響表現モデルと比較して,かなり許容できる結果が得られる。
論文 参考訳(メタデータ) (2022-10-28T08:39:36Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Contrastive Learning of Musical Representations [0.0]
SimCLRを音楽領域に導入し、音楽の生の波形の自己監督学習のためのフレームワークを形成する:CLMR。
CLMRの表現はドメイン外のデータセットで転送可能であることを示し、重要な音楽知識を捉えていることを示す。
音楽における自己教師付き学習の促進と今後の研究のために,本論文のすべての実験の事前学習モデルとソースコードをgithubに公開する。
論文 参考訳(メタデータ) (2021-03-17T02:53:55Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。