論文の概要: Toward Leveraging Pre-Trained Self-Supervised Frontends for Automatic
Singing Voice Understanding Tasks: Three Case Studies
- arxiv url: http://arxiv.org/abs/2306.12714v1
- Date: Thu, 22 Jun 2023 07:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:04:20.671086
- Title: Toward Leveraging Pre-Trained Self-Supervised Frontends for Automatic
Singing Voice Understanding Tasks: Three Case Studies
- Title(参考訳): 自動歌唱音声理解タスクのための事前学習型セルフスーパービジョンフロントエンドの活用に向けて:3事例
- Authors: Yuya Yamamoto
- Abstract要約: 自己教師付き学習モデル(SSLモデル)は、音声処理と音楽分類の分野で大量のラベルのないデータを用いて訓練されてきた。
本研究は,3つのタスク(歌手識別,歌唱音声書き起こし,歌唱技法分類)におけるSSLモデルの比較実験を初期探索として報告し,これらの知見を議論することを目的とした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic singing voice understanding tasks, such as singer identification,
singing voice transcription, and singing technique classification, benefit from
data-driven approaches that utilize deep learning techniques. These approaches
work well even under the rich diversity of vocal and noisy samples owing to
their representation ability. However, the limited availability of labeled data
remains a significant obstacle to achieving satisfactory performance. In recent
years, self-supervised learning models (SSL models) have been trained using
large amounts of unlabeled data in the field of speech processing and music
classification. By fine-tuning these models for the target tasks, comparable
performance to conventional supervised learning can be achieved with limited
training data. Therefore, in this paper, we investigate the effectiveness of
SSL models for various singing voice recognition tasks. We report the results
of experiments comparing SSL models for three different tasks (i.e., singer
identification, singing voice transcription, and singing technique
classification) as initial exploration and aim to discuss these findings.
Experimental results show that each SSL model achieves comparable performance
and sometimes outperforms compared to state-of-the-art methods on each task. We
also conducted a layer-wise analysis to further understand the behavior of the
SSL models.
- Abstract(参考訳): 歌手識別、歌唱音声書き起こし、歌唱技法分類などの自動歌唱音声理解タスクは、深層学習技術を利用したデータ駆動アプローチの恩恵を受ける。
これらのアプローチは、その表現能力のために声楽と雑音の豊富なサンプルの下でもうまく機能する。
しかし、ラベル付きデータの可用性の制限は、十分なパフォーマンスを達成するための重要な障害である。
近年,音声処理や音楽分類の分野で,ラベルのない大量のデータを用いて自己教師付き学習モデル(SSLモデル)を訓練している。
これらのモデルを対象タスク向けに微調整することで、限られたトレーニングデータで従来の教師付き学習と同等のパフォーマンスが得られる。
そこで本研究では,さまざまな歌声音声認識タスクにおけるSSLモデルの有効性について検討する。
本研究は,3つのタスク(歌手識別,歌唱音声書き起こし,歌唱技法分類)におけるSSLモデルの比較実験を初期探索として報告し,これらの知見を議論することを目的とした。
実験の結果、各SSLモデルは、各タスクの最先端メソッドと比較して、同等のパフォーマンスを達成し、時にはパフォーマンスを向上することが示された。
また,sslモデルの挙動をさらに理解するために,層別分析を行った。
関連論文リスト
- Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - On the Effectiveness of Speech Self-supervised Learning for Music [45.43336822496942]
自己ソース学習(SSL)は、様々な音声および自然言語処理アプリケーションで有望な結果を示している。
本稿では,2つの特徴ある音声関連モデルである data2vec1.0 と Hubert を用いて,SSL の音楽適応について検討する。
この結果から,音楽データを用いた学習は,モデルが音声のためのパラダイムを用いて訓練された場合でも,一般的にMIRタスクの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-07-11T10:37:57Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。