論文の概要: MATPAC++: Enhanced Masked Latent Prediction for Self-Supervised Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2508.12709v1
- Date: Mon, 18 Aug 2025 08:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.077552
- Title: MATPAC++: Enhanced Masked Latent Prediction for Self-Supervised Audio Representation Learning
- Title(参考訳): MATPAC++:自己監督型音声表現学習のためのマスク付き潜時予測の強化
- Authors: Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, Slim Essid,
- Abstract要約: 自己教師型学習(SSL)の先駆的パラダイムとしてマスク付き潜伏予測が登場した
本研究は,MCL(Multiple Choice Learning)を統合し,予測のあいまいさを明示的にモデル化し,表現品質を向上させることを提案する。
- 参考スコア(独自算出の注目度): 9.580895202050947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked latent prediction has emerged as a leading paradigm in self-supervised learning (SSL), especially for general audio and music representation learning. While recent methods have demonstrated strong performance, the role of the predictor module used at the output of such SSL systems remains mainly overlooked, despite being crucial for solving the pretext task at hand. In particular, this module should be able to deal with the ambiguity inherent in audio content, especially when it is composed of multiple sound sources. This work proposes a novel enhancement: integrating Multiple Choice Learning (MCL) to explicitly model prediction ambiguity and improve representation quality. We build on top of the recently proposed MATPAC system, improving its prediction and unsupervised classification pretext tasks with MCL. We extensively evaluate our method, MATPAC++, through both linear probing across multiple downstream tasks and fine-tuning on AudioSet, employing a unified protocol that enables rigorous and fair comparisons with state-of-the-art SSL approaches. Results show that our proposal achieves state-of-the-art when fine-tuned on AudioSet and overall state-of-the-art scores on downstream tasks. Additionally, we examine domain specialisation by training exclusively on music data, where our model achieves state-of-the-art performance with significantly improved efficiency.
- Abstract(参考訳): マスク付き潜伏予測は、特に一般的なオーディオおよび音楽表現学習において、自己教師付き学習(SSL)における主要なパラダイムとして現れている。
最近の手法では高い性能を示すが、SSLシステムの出力で使われる予測モジュールの役割は、手元にあるプリテキストタスクの解決に不可欠であるにもかかわらず、主に見過ごされている。
特に、複数の音源で構成されている場合、このモジュールは、オーディオコンテンツに固有のあいまいさに対処できるはずである。
本研究は,MCL(Multiple Choice Learning)を統合し,予測のあいまいさを明示的にモデル化し,表現品質を向上させることを提案する。
我々は最近提案された MATPAC システム上に構築され、予測とMCLによる教師なしの分類前文タスクを改善した。
我々は,複数のダウンストリームタスクにまたがる線形探索とAudioSetの微調整の両方を通じて,我々の手法であるMATPAC++を広範囲に評価し,最先端のSSLアプローチと厳密かつ公正な比較を可能にする統一プロトコルを用いた。
以上の結果から,AudioSetの微調整や下流タスクの総合評価において,提案手法は最先端化を実現していることが明らかとなった。
さらに,本モデルでは,音楽データのみに特化してドメインの専門化について検討する。
関連論文リスト
- MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。