論文の概要: Masked Contrastive Pre-Training Improves Music Audio Key Detection
- arxiv url: http://arxiv.org/abs/2604.10021v1
- Date: Sat, 11 Apr 2026 04:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.794734
- Title: Masked Contrastive Pre-Training Improves Music Audio Key Detection
- Title(参考訳): Masked Contrastive Pre-Trainingは音楽のキー検出を改善
- Authors: Ori Yonay, Tracy Hammond, Tianbao Yang,
- Abstract要約: 本研究は,自己指導型事前学習の設計がピッチ感度に直接影響を及ぼすことを示す最初の体系的な研究である。
マスク付きコントラスト埋め込みにより、教師付きセッティングにおけるキー検出における最先端(SOTA)のパフォーマンスが一意に向上する。
- 参考スコア(独自算出の注目度): 38.40028026040883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised music foundation models underperform on key detection, which requires pitch-sensitive representations. In this work, we present the first systematic study showing that the design of self-supervised pretraining directly impacts pitch sensitivity, and demonstrate that masked contrastive embeddings uniquely enable state-of-the-art (SOTA) performance in key detection in the supervised setting. First, we discover that linear evaluation after masking-based contrastive pretraining on Mel spectrograms leads to competitive performance on music key detection out of the box. This leads us to train shallow but wide multi-layer perceptrons (MLPs) on features extracted from our base model, leading to SOTA performance without the need for sophisticated data augmentation policies. We further analyze robustness and show empirically that the learned representations naturally encode common augmentations. Our study establishes self-supervised pretraining as an effective approach for pitch-sensitive MIR tasks and provides insights for designing and probing music foundation models.
- Abstract(参考訳): 自己教師型音楽ファンデーションモデルは、ピッチに敏感な表現を必要とするキー検出で性能を低下させる。
本研究は,自己教師型事前学習の設計がピッチ感度に直接影響を及ぼすことを示す最初の体系的な研究であり,マスク付きコントラスト埋め込みにより,教師型設定におけるキー検出におけるSOTA(State-of-the-art)性能が一意に実現できることを示す。
まず,Melスペクトログラムを用いたマスキングによるコントラスト事前トレーニング後の線形評価により,ボックス外における音楽キー検出における競合性能が向上することが判明した。
これにより、ベースモデルから抽出した機能に基づいて、浅いが広い多層パーセプトロン(MLP)をトレーニングし、洗練されたデータ拡張ポリシーを必要とせずにSOTAのパフォーマンスを向上する。
さらに、ロバスト性を分析し、学習された表現が共通の拡張を自然にエンコードしていることを示す。
本研究は、ピッチ感性MIR課題に対する効果的なアプローチとして、自己指導型事前学習を確立し、音楽基礎モデルの設計と探索のための洞察を提供する。
関連論文リスト
- Self-Supervised Learning on Molecular Graphs: A Systematic Investigation of Masking Design [11.43518417965958]
自己教師付き学習は、分子表現学習において中心的な役割を果たす。
マスキングに基づく事前訓練の最近の革新は、隠蔽と原則的評価の欠如として紹介されている。
この作業により、プレトレイン-ファイントゥンワークフロー全体が統一された確率的フレームワークとなった。
論文 参考訳(メタデータ) (2025-12-08T00:52:46Z) - Sparse Autoencoders Make Audio Foundation Models more Explainable [12.377299061408692]
我々はSparse Autoencoders (SAE) を用いて事前訓練されたモデルの隠れ表現を分析する。
SAEは元の表現とクラスラベルに関する情報の両方を保持し、内部構造を可能にする。
SAEは発声特性のゆがみを高め,それらの表現に符号化された要因を識別するための有効なツールとして確立する。
論文 参考訳(メタデータ) (2025-09-29T13:46:48Z) - Learning an Ensemble Token from Task-driven Priors in Facial Analysis [6.1218317445177135]
本稿では,アンサンブルトークンを学習するための新しい手法であるET-Fuserを紹介する。
本稿では,自己認識機構内でアンサンブルトークンを生成する,頑健な事前統一学習手法を提案する。
以上の結果から,特徴表現に統計的に有意な改善が見られた。
論文 参考訳(メタデータ) (2025-07-02T02:07:31Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - The Impact of Spatiotemporal Augmentations on Self-Supervised
Audiovisual Representation Learning [2.28438857884398]
ラベルなしビデオから音声視覚表現を学習するための対照的な枠組みを提案する。
ビデオの時間的コヒーレンシーを損なわない損失時間変換が最も効果的であることがわかった。
サンプリングベース時間拡張のみで事前訓練された自己教師モデルと比較して、時間拡張で事前訓練された自己教師モデルは、データセットAVE上での線形性能が約6.5%向上する。
論文 参考訳(メタデータ) (2021-10-13T23:48:58Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。