論文の概要: Spectrograms Are Sequences of Patches
- arxiv url: http://arxiv.org/abs/2210.15988v1
- Date: Fri, 28 Oct 2022 08:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:17:41.121252
- Title: Spectrograms Are Sequences of Patches
- Title(参考訳): スペクトログラムはパッチのシーケンスです
- Authors: Leyi Zhao, Yi Li
- Abstract要約: 我々は、音楽のスペクトログラムを一連のパッチとしてキャプチャする自己教師型モデルを設計する。
事前学習にはラベル付きデータを使用しず、16k曲のクリップを含むMTATデータセットのサブセットのみを使用します。
本モデルは,他の音響表現モデルと比較して,かなり許容できる結果が得られる。
- 参考スコア(独自算出の注目度): 5.253100011321437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training models have been used successfully in several
machine learning domains. However, only a tiny amount of work is related to
music. In our work, we treat a spectrogram of music as a series of patches and
design a self-supervised model that captures the features of these sequential
patches: Patchifier, which makes good use of self-supervised learning methods
from both NLP and CV domains. We do not use labeled data for the pre-training
process, only a subset of the MTAT dataset containing 16k music clips. After
pre-training, we apply the model to several downstream tasks. Our model
achieves a considerably acceptable result compared to other audio
representation models. Meanwhile, our work demonstrates that it makes sense to
consider audio as a series of patch segments.
- Abstract(参考訳): 自己教師付き事前学習モデルは、いくつかの機械学習領域でうまく使われている。
しかし、音楽に関連する作品はごくわずかである。
本研究では,音楽のスペクトログラムを一連のパッチとして扱い,これらのシーケンシャルパッチの特徴を捉えた自己教師型モデルを設計する。
事前学習にはラベル付きデータを使用しないが、16kの音楽クリップを含むmtatデータセットのサブセットのみである。
事前学習後、複数の下流タスクにモデルを適用します。
本モデルは,他の音響表現モデルと比較してかなり許容できる結果が得られる。
一方、我々の研究は、オーディオを一連のパッチセグメントと考えることは理にかなっていることを示している。
関連論文リスト
- MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization [24.991558192161]
音楽理解のための自己教師付き音楽表現学習モデルを提案する。
MuQはMel Residual Vector Quantization(Mel-RVQ)によって生成されるトークンを予測するために訓練される
様々なダウンストリームタスクの実験では、MuQが以前の自己教師付き音楽表現モデルより優れていたことが示されている。
論文 参考訳(メタデータ) (2025-01-02T07:08:29Z) - Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。
PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。
PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文 参考訳(メタデータ) (2024-11-28T20:50:40Z) - An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。
MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文 参考訳(メタデータ) (2021-08-25T17:20:50Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。