論文の概要: Pac-HuBERT: Self-Supervised Music Source Separation via Primitive
Auditory Clustering and Hidden-Unit BERT
- arxiv url: http://arxiv.org/abs/2304.02160v1
- Date: Tue, 4 Apr 2023 23:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:56:06.736346
- Title: Pac-HuBERT: Self-Supervised Music Source Separation via Primitive
Auditory Clustering and Hidden-Unit BERT
- Title(参考訳): Pac-HuBERT:原始聴覚クラスタリングとHidden-Unit BERTによる自己監督音源分離
- Authors: Ke Chen, Gordon Wichern, Fran\c{c}ois G. Germain, Jonathan Le Roux
- Abstract要約: 本稿では,HuBERT音声表現モデルにインスパイアされた音源分離のための自己教師型学習フレームワークを提案する。
我々のフレームワークは、元のDemucs V2およびRes-U-Netモデルよりも、MusDB18テストセット上でのソース・歪み比(SDR)の性能を向上させる。
- 参考スコア(独自算出の注目度): 37.36998300666784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spite of the progress in music source separation research, the small
amount of publicly-available clean source data remains a constant limiting
factor for performance. Thus, recent advances in self-supervised learning
present a largely-unexplored opportunity for improving separation models by
leveraging unlabelled music data. In this paper, we propose a self-supervised
learning framework for music source separation inspired by the HuBERT speech
representation model. We first investigate the potential impact of the original
HuBERT model by inserting an adapted version of it into the well-known Demucs
V2 time-domain separation model architecture. We then propose a
time-frequency-domain self-supervised model, Pac-HuBERT (for primitive auditory
clustering HuBERT), that we later use in combination with a Res-U-Net decoder
for source separation. Pac-HuBERT uses primitive auditory features of music as
unsupervised clustering labels to initialize the self-supervised pretraining
process using the Free Music Archive (FMA) dataset. The resulting framework
achieves better source-to-distortion ratio (SDR) performance on the MusDB18
test set than the original Demucs V2 and Res-U-Net models. We further
demonstrate that it can boost performance with small amounts of supervised
data. Ultimately, our proposed framework is an effective solution to the
challenge of limited clean source data for music source separation.
- Abstract(参考訳): 音楽ソース分離研究の進展にもかかわらず、利用可能な少量のクリーンソースデータは、パフォーマンスの一定の制限要因であり続けている。
このように、近年の自己教師型学習の進歩は、未学習の音楽データを活用することにより、分離モデルを改善するための未探索の機会となる。
本稿では,HuBERT音声表現モデルに触発された音源分離のための自己教師型学習フレームワークを提案する。
まず,有名な demucs v2 時間領域分離モデルアーキテクチャにその適応バージョンを挿入することで,hubert モデルの潜在的影響について検討した。
次に、時間周波数領域の自己教師型モデルであるPac-HuBERT(初期聴覚クラスタリングHuBERT)を提案し、後にソース分離のためにRes-U-Netデコーダと組み合わせて使用する。
pac-hubertは、音楽の原始的な聴覚的特徴を教師なしクラスタリングラベルとして使用し、free music archive (fma)データセットを使用して自己教師なし事前学習プロセスを初期化する。
結果として得られたフレームワークは、元の demucs v2 および res-u-net モデルよりも musdb18 テストセットでより良い source-to-distortion ratio (sdr) 性能を達成する。
我々はさらに、少量の教師付きデータでパフォーマンスを向上できることを実証する。
最終的に,提案フレームワークは,音楽音源分離のための限られたクリーンソースデータに対する効果的な解決法である。
関連論文リスト
- Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer [22.284107693108073]
音楽の音色伝達は、メロディック構造を保ちながら、音声信号の音色特性を変更することを伴う。
本稿では,CocoChoralesデータセットを用いて訓練した二層拡散ブリッジに基づく新しい手法を提案する。
Fr'echet Audio Distance (FAD) とメロディ保存をVAEGANとGFBと比較して低ピッチ距離 (DPD) で再現できることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-09T22:16:48Z) - DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - Naturalistic Music Decoding from EEG Data via Latent Diffusion Models [14.882764251306094]
本研究は,非侵襲的脳波データを用いて,高品質な音楽再生を実現するための最初の試みである。
我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
論文 参考訳(メタデータ) (2024-05-15T03:26:01Z) - Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning
of Music Audio [10.946347283718923]
本稿では,プロトタイプ学習に基づく音楽音声分類のための解釈可能なモデルPECMAEを提案する。
我々のモデルは,オートエンコーダとプロトタイプネットワークを共同で学習する先行手法であるAPNetに基づいている。
プロトタイプベースのモデルはオートエンコーダの埋め込みによって達成された性能の大部分を保っていることがわかった。
論文 参考訳(メタデータ) (2024-02-14T17:13:36Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。