Fugu-MT 論文翻訳(概要): Spectrograms Are Sequences of Patches

論文の概要: Spectrograms Are Sequences of Patches

arxiv url: http://arxiv.org/abs/2210.15988v1
Date: Fri, 28 Oct 2022 08:39:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-31 17:17:41.121252
Title: Spectrograms Are Sequences of Patches
Title（参考訳）: スペクトログラムはパッチのシーケンスです
Authors: Leyi Zhao, Yi Li
Abstract要約: 我々は、音楽のスペクトログラムを一連のパッチとしてキャプチャする自己教師型モデルを設計する。事前学習にはラベル付きデータを使用しず、16k曲のクリップを含むMTATデータセットのサブセットのみを使用します。本モデルは,他の音響表現モデルと比較して,かなり許容できる結果が得られる。
参考スコア（独自算出の注目度）: 5.253100011321437
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised pre-training models have been used successfully in several machine learning domains. However, only a tiny amount of work is related to music. In our work, we treat a spectrogram of music as a series of patches and design a self-supervised model that captures the features of these sequential patches: Patchifier, which makes good use of self-supervised learning methods from both NLP and CV domains. We do not use labeled data for the pre-training process, only a subset of the MTAT dataset containing 16k music clips. After pre-training, we apply the model to several downstream tasks. Our model achieves a considerably acceptable result compared to other audio representation models. Meanwhile, our work demonstrates that it makes sense to consider audio as a series of patch segments.
Abstract（参考訳）: 自己教師付き事前学習モデルは、いくつかの機械学習領域でうまく使われている。しかし、音楽に関連する作品はごくわずかである。本研究では,音楽のスペクトログラムを一連のパッチとして扱い,これらのシーケンシャルパッチの特徴を捉えた自己教師型モデルを設計する。事前学習にはラベル付きデータを使用しないが、16kの音楽クリップを含むmtatデータセットのサブセットのみである。事前学習後、複数の下流タスクにモデルを適用します。本モデルは,他の音響表現モデルと比較してかなり許容できる結果が得られる。一方、我々の研究は、オーディオを一連のパッチセグメントと考えることは理にかなっていることを示している。

関連論文リスト

Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文参考訳（メタデータ） (2025-06-30T14:00:14Z)
MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization [24.991558192161]
音楽理解のための自己教師付き音楽表現学習モデルを提案する。 MuQはMel Residual Vector Quantization(Mel-RVQ)によって生成されるトークンを予測するために訓練される様々なダウンストリームタスクの実験では、MuQが以前の自己教師付き音楽表現モデルより優れていたことが示されている。
論文参考訳（メタデータ） (2025-01-02T07:08:29Z)
Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。 PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。 PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文参考訳（メタデータ） (2024-11-28T20:50:40Z)
An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文参考訳（メタデータ） (2024-04-14T07:56:08Z)
Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-04-09T13:39:37Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
Supervised and Unsupervised Learning of Audio Representations for Music Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2022-10-07T20:07:35Z)
Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder) 我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文参考訳（メタデータ） (2022-10-02T07:29:57Z)
Self-supervised Graphs for Audio Representation Learning with Limited Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文参考訳（メタデータ） (2022-01-31T21:32:22Z)
SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文参考訳（メタデータ） (2021-10-19T07:58:28Z)
Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。 MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文参考訳（メタデータ） (2021-08-25T17:20:50Z)
MoPro: Webly Supervised Learning with Momentum Prototypes [140.76848620407168]
本稿では,教師付き学習におけるアノテーションの可読性を損なうことなく,Webで教師付き表現学習手法を提案する。 MoProは、弱いラベル付きノイズデータセットであるWebVisionで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-09-17T00:59:59Z)
Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文参考訳（メタデータ） (2020-05-18T10:42:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。