論文の概要: MAP-Music2Vec: A Simple and Effective Baseline for Self-Supervised Music
Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2212.02508v1
- Date: Mon, 5 Dec 2022 16:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:23:49.227681
- Title: MAP-Music2Vec: A Simple and Effective Baseline for Self-Supervised Music
Audio Representation Learning
- Title(参考訳): MAP-Music2Vec: 自己監督型オーディオ表現学習のためのシンプルで効果的なベースライン
- Authors: Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Chenghua Lin, Xingran
Chen, Anton Ragni, Hanzhi Yin, Zhijie Hu, Haoyu He, Emmanouil Benetos,
Norbert Gyenge, Ruibo Liu and Jie Fu
- Abstract要約: Music2Vecは、さまざまなSSLアルゴリズムコンポーネントと音楽オーディオ録音のトリックを探索するフレームワークである。
我々のモデルは、後者のパラメータの2%未満で非常に小さいにもかかわらず、最先端(SOTA)音楽SSLモデルJukeboxに匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 41.633972123961094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deep learning community has witnessed an exponentially growing interest
in self-supervised learning (SSL). However, it still remains unexplored how to
build a framework for learning useful representations of raw music waveforms in
a self-supervised manner. In this work, we design Music2Vec, a framework
exploring different SSL algorithmic components and tricks for music audio
recordings. Our model achieves comparable results to the state-of-the-art
(SOTA) music SSL model Jukebox, despite being significantly smaller with less
than 2% of parameters of the latter. The model will be released on
Huggingface(Please refer to: https://huggingface.co/m-a-p/music2vec-v1)
- Abstract(参考訳): ディープラーニングコミュニティは、自己教師型学習(SSL)への関心が急増しているのを目撃している。
しかし、生の波形の表現を自己指導的に学習するためのフレームワークを構築する方法はまだ解明されていない。
本研究では,音楽録音のためのさまざまなSSLアルゴリズムコンポーネントとトリックを探索するフレームワークであるMusic2Vecを設計する。
我々のモデルは、後者のパラメータの2%未満であるにもかかわらず、最先端(SOTA)音楽SSLモデルJukeboxに匹敵する結果が得られる。
モデルは huggingface(https://huggingface.co/m-a-p/music2vec-v1) でリリースされる。
関連論文リスト
- On the Effectiveness of Speech Self-supervised Learning for Music [45.43336822496942]
自己ソース学習(SSL)は、様々な音声および自然言語処理アプリケーションで有望な結果を示している。
本稿では,2つの特徴ある音声関連モデルである data2vec1.0 と Hubert を用いて,SSL の音楽適応について検討する。
この結果から,音楽データを用いた学習は,モデルが音声のためのパラダイムを用いて訓練された場合でも,一般的にMIRタスクの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-07-11T10:37:57Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Audio-to-symbolic Arrangement via Cross-modal Music Representation
Learning [11.247238840604282]
優れたアレンジモデルは、オーディオコンテンツだけでなく、ピアノ構成に関する事前知識も考慮すべきである。
音声から和音と旋律情報を抽出するクロスモーダル表現学習モデルを提案する。
実験により,本モデルが主要な音声情報をキャプチャし,生成品質においてベースラインを上回ることを示す。
論文 参考訳(メタデータ) (2021-12-30T16:05:30Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。