論文の概要: Myna: Masking-Based Contrastive Learning of Musical Representations
- arxiv url: http://arxiv.org/abs/2502.12511v1
- Date: Tue, 18 Feb 2025 03:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:32.565872
- Title: Myna: Masking-Based Contrastive Learning of Musical Representations
- Title(参考訳): Myna: マスキングに基づく音楽表現のコントラスト学習
- Authors: Ori Yonay, Tracy Hammond, Tianbao Yang,
- Abstract要約: 我々は、自己教師付き音楽表現学習のためのシンプルで効果的なアプローチであるMynaを提案する。
Myna氏は2つの重要なイノベーションを紹介している。メル-スペクトログラムをバックボーンとして使用するビジョントランスフォーマー(ViT)と、スペクトログラムトークンの90%をマスクするトークンマスキングだ。
私たちのハイブリッドモデルであるMyna-22M-Hybridは16x16と128x2のパッチを処理し、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 41.93383804816733
- License:
- Abstract: We present Myna, a simple yet effective approach for self-supervised musical representation learning. Built on a contrastive learning framework, Myna introduces two key innovations: (1) the use of a Vision Transformer (ViT) on mel-spectrograms as the backbone and (2) a novel data augmentation strategy, token masking, that masks 90 percent of spectrogram tokens. These innovations deliver both effectiveness and efficiency: (i) Token masking enables a significant increase in per-GPU batch size, from 48 or 120 in prior methods (CLMR, MULE) to 4096. (ii) By avoiding traditional augmentations, Myna retains pitch sensitivity, enhancing performance in tasks like key detection. (iii) The use of vertical patches allows the model to better capture critical features for key detection. Our hybrid model, Myna-22M-Hybrid, processes both 16x16 and 128x2 patches, achieving state-of-the-art results. Trained on a single GPU, it outperforms MULE (62M) on average and rivals MERT-95M, which was trained on 16 and 64 GPUs, respectively. Additionally, it surpasses MERT-95M-public, establishing itself as the best-performing model trained on publicly available data. We release our code and models to promote reproducibility and facilitate future research.
- Abstract(参考訳): 我々は、自己教師付き音楽表現学習のためのシンプルで効果的なアプローチであるMynaを提案する。
対照的な学習フレームワーク上に構築されたMynaは、(1)メルスペクトログラムをバックボーンとして使用するビジョントランスフォーマー(ViT)と、(2)スペクトログラムトークンの90%を隠蔽する新しいデータ拡張戦略であるトークンマスキングの2つの重要なイノベーションを紹介している。
これらの革新は効果と効率の両方をもたらす。
(i)Tokenマスクは,従来手法(CLMR,MULE)の48から120から4096までのGPUバッチサイズを大幅に増加させることができる。
(ii)従来の拡張を避けることにより、キー検出などのタスクにおいて、ピッチ感度が向上し、パフォーマンスが向上する。
(iii)垂直パッチを使用することで、キー検出のための重要な特徴をよりよく捉えることができる。
私たちのハイブリッドモデルであるMyna-22M-Hybridは16x16と128x2のパッチを処理し、最先端の結果を得る。
1つのGPUでトレーニングされ、平均でMULE(62M)を上回り、それぞれ16GPUと64GPUでトレーニングされたMERT-95Mと競合する。
さらに、MERT-95Mを越え、公開データに基づいてトレーニングされた最高のパフォーマンスモデルとして確立した。
再現性を促進し、将来の研究を促進するために、コードとモデルをリリースします。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。
まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。
我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文 参考訳(メタデータ) (2024-04-10T06:30:08Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Masked Autoencoders Enable Efficient Knowledge Distillers [31.606287119666572]
本稿では、事前訓練されたモデル、特にマスクオートエンコーダからの知識の蒸留の可能性について検討する。
教師モデルの中間特徴写像と生徒モデルの中間特徴写像との距離を最小化する。
極めて高いマスキング比であっても,教師モデルから知識をしっかりと抽出することができる。
論文 参考訳(メタデータ) (2022-08-25T17:58:59Z) - DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文 参考訳(メタデータ) (2022-01-28T12:43:14Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。