論文の概要: Pac-HuBERT: Self-Supervised Music Source Separation via Primitive
Auditory Clustering and Hidden-Unit BERT
- arxiv url: http://arxiv.org/abs/2304.02160v1
- Date: Tue, 4 Apr 2023 23:19:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:56:06.736346
- Title: Pac-HuBERT: Self-Supervised Music Source Separation via Primitive
Auditory Clustering and Hidden-Unit BERT
- Title(参考訳): Pac-HuBERT:原始聴覚クラスタリングとHidden-Unit BERTによる自己監督音源分離
- Authors: Ke Chen, Gordon Wichern, Fran\c{c}ois G. Germain, Jonathan Le Roux
- Abstract要約: 本稿では,HuBERT音声表現モデルにインスパイアされた音源分離のための自己教師型学習フレームワークを提案する。
我々のフレームワークは、元のDemucs V2およびRes-U-Netモデルよりも、MusDB18テストセット上でのソース・歪み比(SDR)の性能を向上させる。
- 参考スコア(独自算出の注目度): 37.36998300666784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spite of the progress in music source separation research, the small
amount of publicly-available clean source data remains a constant limiting
factor for performance. Thus, recent advances in self-supervised learning
present a largely-unexplored opportunity for improving separation models by
leveraging unlabelled music data. In this paper, we propose a self-supervised
learning framework for music source separation inspired by the HuBERT speech
representation model. We first investigate the potential impact of the original
HuBERT model by inserting an adapted version of it into the well-known Demucs
V2 time-domain separation model architecture. We then propose a
time-frequency-domain self-supervised model, Pac-HuBERT (for primitive auditory
clustering HuBERT), that we later use in combination with a Res-U-Net decoder
for source separation. Pac-HuBERT uses primitive auditory features of music as
unsupervised clustering labels to initialize the self-supervised pretraining
process using the Free Music Archive (FMA) dataset. The resulting framework
achieves better source-to-distortion ratio (SDR) performance on the MusDB18
test set than the original Demucs V2 and Res-U-Net models. We further
demonstrate that it can boost performance with small amounts of supervised
data. Ultimately, our proposed framework is an effective solution to the
challenge of limited clean source data for music source separation.
- Abstract(参考訳): 音楽ソース分離研究の進展にもかかわらず、利用可能な少量のクリーンソースデータは、パフォーマンスの一定の制限要因であり続けている。
このように、近年の自己教師型学習の進歩は、未学習の音楽データを活用することにより、分離モデルを改善するための未探索の機会となる。
本稿では,HuBERT音声表現モデルに触発された音源分離のための自己教師型学習フレームワークを提案する。
まず,有名な demucs v2 時間領域分離モデルアーキテクチャにその適応バージョンを挿入することで,hubert モデルの潜在的影響について検討した。
次に、時間周波数領域の自己教師型モデルであるPac-HuBERT(初期聴覚クラスタリングHuBERT)を提案し、後にソース分離のためにRes-U-Netデコーダと組み合わせて使用する。
pac-hubertは、音楽の原始的な聴覚的特徴を教師なしクラスタリングラベルとして使用し、free music archive (fma)データセットを使用して自己教師なし事前学習プロセスを初期化する。
結果として得られたフレームワークは、元の demucs v2 および res-u-net モデルよりも musdb18 テストセットでより良い source-to-distortion ratio (sdr) 性能を達成する。
我々はさらに、少量の教師付きデータでパフォーマンスを向上できることを実証する。
最終的に,提案フレームワークは,音楽音源分離のための限られたクリーンソースデータに対する効果的な解決法である。
関連論文リスト
- Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning
of Music Audio [10.946347283718923]
本稿では,プロトタイプ学習に基づく音楽音声分類のための解釈可能なモデルPECMAEを提案する。
我々のモデルは,オートエンコーダとプロトタイプネットワークを共同で学習する先行手法であるAPNetに基づいている。
プロトタイプベースのモデルはオートエンコーダの埋め込みによって達成された性能の大部分を保っていることがわかった。
論文 参考訳(メタデータ) (2024-02-14T17:13:36Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [54.51336524107044]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion
Models [49.62299756133055]
DAVISはディフュージョンモデルに基づくオーディオビザ分離フレームワークであり、音声-視覚的音源分離タスクを生成的方法で解決する。
DAVISを、ドメイン固有のMUSICデータセットとオープンドメインAVEデータセット上で、既存の最先端の識別的オーディオ視覚分離手法と比較する。
以上の結果から,DAVISは他の手法よりも品質が優れており,音声・視覚的音源分離タスクに対処するためのフレームワークの利点が示された。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。