論文の概要: Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2502.12031v1
- Date: Mon, 17 Feb 2025 17:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:09:23.324321
- Title: Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning
- Title(参考訳): 自己教師付き音声表現学習のためのマスク付き潜時予測と分類
- Authors: Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, Slim Essid,
- Abstract要約: そこで本稿では,MAsked latenT Prediction and Classification (MATPAC) という2つのプレテキストタスクを併用して学習する手法を提案する。
MATPACは、OpenMIC、GTZAN、ESC-50、US8Kなどの参照オーディオ分類データセット上で、最先端の自己教師付き学習結果に達する。
- 参考スコア(独自算出の注目度): 9.580895202050947
- License:
- Abstract: Recently, self-supervised learning methods based on masked latent prediction have proven to encode input data into powerful representations. However, during training, the learned latent space can be further transformed to extract higher-level information that could be more suited for downstream classification tasks. Therefore, we propose a new method: MAsked latenT Prediction And Classification (MATPAC), which is trained with two pretext tasks solved jointly. As in previous work, the first pretext task is a masked latent prediction task, ensuring a robust input representation in the latent space. The second one is unsupervised classification, which utilises the latent representations of the first pretext task to match probability distributions between a teacher and a student. We validate the MATPAC method by comparing it to other state-of-the-art proposals and conducting ablations studies. MATPAC reaches state-of-the-art self-supervised learning results on reference audio classification datasets such as OpenMIC, GTZAN, ESC-50 and US8K and outperforms comparable supervised methods results for musical auto-tagging on Magna-tag-a-tune.
- Abstract(参考訳): 近年,マスク付き潜在予測に基づく自己教師型学習手法が,入力データを強力な表現に符号化することが証明されている。
しかし、トレーニング中、学習された潜伏空間はさらに変換され、下流の分類タスクにより適した高レベルな情報を抽出することができる。
そこで本稿では,MAsked latenT Prediction and Classification (MATPAC) という2つのプレテキストタスクを併用して学習する手法を提案する。
以前の研究と同様に、最初のプレテキストタスクはマスク付き潜時予測タスクであり、潜時空間における堅牢な入力表現を保証する。
2つ目は教師なしの分類であり、教師と生徒の間の確率分布を一致させるために、第1のプレテキストタスクの潜在表現を利用する。
我々は, MATPAC法を他の最先端の提案と比較し, 改善研究を行うことで検証する。
MATPACは、OpenMIC、GTZAN、ESC-50、US8Kなどの参照オーディオ分類データセット上で最先端の自己教師付き学習結果に到達し、Magna-tag-a-tuneにおける音楽の自動タグ付けにおいて、同等の教師付き手法よりも優れている。
関連論文リスト
- Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - DatUS^2: Data-driven Unsupervised Semantic Segmentation with Pre-trained
Self-supervised Vision Transformer [6.898332152137321]
教師なしの密接なセマンティックセグメンテーションは下流のタスクとして研究されていない。
本稿では、下流タスクとして教師なしセマンティックセグメンテーションのための新しいデータ駆動手法を提案する。
DatUS2のベストバージョンは、教師なしの密接なセマンティックセグメンテーションタスクにおいて、既存の最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2024-01-23T14:53:32Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Enhancing Deep Knowledge Tracing with Auxiliary Tasks [24.780533765606922]
本稿では,emphAT-DKTによる知識追跡モデルの予測性能の向上について述べる。
実世界の3つの教育データセットに関する総合的な実験を行い、提案手法を深部逐次KTモデルと非逐次モデルの両方と比較する。
論文 参考訳(メタデータ) (2023-02-14T08:21:37Z) - Class Token and Knowledge Distillation for Multi-head Self-Attention
Speaker Verification Systems [20.55054374525828]
本稿では,ディープニューラルネットワーク(DNN)に基づく話者検証システムの性能向上のための3つの新しいアプローチについて検討する。
まず,クラストークンと呼ばれる学習可能なベクトルを用いて,平均的なグローバルプール機構を置換し,埋め込みを抽出する手法を提案する。
第2に,KD(Knowledge Distillation)哲学を用いて教師と学生のペアのネットワークを訓練するための蒸留表現トークンを追加した。
論文 参考訳(メタデータ) (2021-11-06T09:47:05Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。