論文の概要: Spectrograms Are Sequences of Patches
- arxiv url: http://arxiv.org/abs/2210.15988v1
- Date: Fri, 28 Oct 2022 08:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:17:41.121252
- Title: Spectrograms Are Sequences of Patches
- Title(参考訳): スペクトログラムはパッチのシーケンスです
- Authors: Leyi Zhao, Yi Li
- Abstract要約: 我々は、音楽のスペクトログラムを一連のパッチとしてキャプチャする自己教師型モデルを設計する。
事前学習にはラベル付きデータを使用しず、16k曲のクリップを含むMTATデータセットのサブセットのみを使用します。
本モデルは,他の音響表現モデルと比較して,かなり許容できる結果が得られる。
- 参考スコア(独自算出の注目度): 5.253100011321437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training models have been used successfully in several
machine learning domains. However, only a tiny amount of work is related to
music. In our work, we treat a spectrogram of music as a series of patches and
design a self-supervised model that captures the features of these sequential
patches: Patchifier, which makes good use of self-supervised learning methods
from both NLP and CV domains. We do not use labeled data for the pre-training
process, only a subset of the MTAT dataset containing 16k music clips. After
pre-training, we apply the model to several downstream tasks. Our model
achieves a considerably acceptable result compared to other audio
representation models. Meanwhile, our work demonstrates that it makes sense to
consider audio as a series of patch segments.
- Abstract(参考訳): 自己教師付き事前学習モデルは、いくつかの機械学習領域でうまく使われている。
しかし、音楽に関連する作品はごくわずかである。
本研究では,音楽のスペクトログラムを一連のパッチとして扱い,これらのシーケンシャルパッチの特徴を捉えた自己教師型モデルを設計する。
事前学習にはラベル付きデータを使用しないが、16kの音楽クリップを含むmtatデータセットのサブセットのみである。
事前学習後、複数の下流タスクにモデルを適用します。
本モデルは,他の音響表現モデルと比較してかなり許容できる結果が得られる。
一方、我々の研究は、オーディオを一連のパッチセグメントと考えることは理にかなっていることを示している。
関連論文リスト
- Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale
Self-supervised Training [75.41299558334129]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。
MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文 参考訳(メタデータ) (2021-08-25T17:20:50Z) - MoPro: Webly Supervised Learning with Momentum Prototypes [140.76848620407168]
本稿では,教師付き学習におけるアノテーションの可読性を損なうことなく,Webで教師付き表現学習手法を提案する。
MoProは、弱いラベル付きノイズデータセットであるWebVisionで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-17T00:59:59Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。