論文の概要: On the Effectiveness of Speech Self-supervised Learning for Music
- arxiv url: http://arxiv.org/abs/2307.05161v1
- Date: Tue, 11 Jul 2023 10:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 15:23:47.893770
- Title: On the Effectiveness of Speech Self-supervised Learning for Music
- Title(参考訳): 音楽における自己指導型音声学習の有効性について
- Authors: Yinghao Ma, Ruibin Yuan, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin,
Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Ruibo Liu, Gus
Xia, Roger Dannenberg, Yike Guo, Jie Fu
- Abstract要約: 自己ソース学習(SSL)は、様々な音声および自然言語処理アプリケーションで有望な結果を示している。
本稿では,2つの特徴ある音声関連モデルである data2vec1.0 と Hubert を用いて,SSL の音楽適応について検討する。
この結果から,音楽データを用いた学習は,モデルが音声のためのパラダイムを用いて訓練された場合でも,一般的にMIRタスクの性能を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 45.43336822496942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has shown promising results in various speech
and natural language processing applications. However, its efficacy in music
information retrieval (MIR) still remains largely unexplored. While previous
SSL models pre-trained on music recordings may have been mostly closed-sourced,
recent speech models such as wav2vec2.0 have shown promise in music modelling.
Nevertheless, research exploring the effectiveness of applying speech SSL
models to music recordings has been limited. We explore the music adaption of
SSL with two distinctive speech-related models, data2vec1.0 and Hubert, and
refer to them as music2vec and musicHuBERT, respectively. We train $12$ SSL
models with 95M parameters under various pre-training configurations and
systematically evaluate the MIR task performances with 13 different MIR tasks.
Our findings suggest that training with music data can generally improve
performance on MIR tasks, even when models are trained using paradigms designed
for speech. However, we identify the limitations of such existing
speech-oriented designs, especially in modelling polyphonic information. Based
on the experimental results, empirical suggestions are also given for designing
future musical SSL strategies and paradigms.
- Abstract(参考訳): 自己教師付き学習(SSL)は、様々な音声および自然言語処理アプリケーションで有望な結果を示している。
しかし、音楽情報検索(MIR)における有効性はいまだに未解明のままである。
以前のSSLモデルは音楽録音で事前訓練されたが、wav2vec2.0のような最近の音声モデルは、音楽モデリングにおいて有望であることを示している。
それにもかかわらず、音声SSLモデルを音楽録音に適用する研究は限られている。
本稿では,2つの特徴ある音声モデルである data2vec1.0 と Hubert を用いてSSL の音楽適応について検討し,これらを music2vec と musicHuBERT と呼ぶ。
我々は、様々な事前トレーニング構成の下で、95Mパラメータを持つ12ドルのSSLモデルをトレーニングし、13の異なるMIRタスクでMIRタスクのパフォーマンスを体系的に評価する。
この結果から,音楽データを用いた学習は,モデルが音声のためのパラダイムを用いて訓練された場合でも,一般的にMIRタスクの性能を向上させることが示唆された。
しかし,既存の音声指向設計,特にポリフォニック情報のモデル化において,その限界を明らかにする。
実験結果に基づき、将来の音楽的ssl戦略とパラダイムを設計するための経験的提案も与えられている。
関連論文リスト
- Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Toward Leveraging Pre-Trained Self-Supervised Frontends for Automatic
Singing Voice Understanding Tasks: Three Case Studies [1.2691047660244337]
自己教師付き学習モデル(SSLモデル)は、音声処理と音楽分類の分野で大量のラベルのないデータを用いて訓練されてきた。
本研究は,3つのタスク(歌手識別,歌唱音声書き起こし,歌唱技法分類)におけるSSLモデルの比較実験を初期探索として報告し,これらの知見を議論することを目的とした。
論文 参考訳(メタデータ) (2023-06-22T07:47:18Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - MAP-Music2Vec: A Simple and Effective Baseline for Self-Supervised Music
Audio Representation Learning [41.633972123961094]
Music2Vecは、さまざまなSSLアルゴリズムコンポーネントと音楽オーディオ録音のトリックを探索するフレームワークである。
我々のモデルは、後者のパラメータの2%未満で非常に小さいにもかかわらず、最先端(SOTA)音楽SSLモデルJukeboxに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2022-12-05T16:04:26Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。