Fugu-MT 論文翻訳(概要): Pac-HuBERT: Self-Supervised Music Source Separation via Primitive Auditory Clustering and Hidden-Unit BERT

論文の概要: Pac-HuBERT: Self-Supervised Music Source Separation via Primitive Auditory Clustering and Hidden-Unit BERT

arxiv url: http://arxiv.org/abs/2304.02160v1
Date: Tue, 4 Apr 2023 23:19:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-06 13:56:06.736346
Title: Pac-HuBERT: Self-Supervised Music Source Separation via Primitive Auditory Clustering and Hidden-Unit BERT
Title（参考訳）: Pac-HuBERT:原始聴覚クラスタリングとHidden-Unit BERTによる自己監督音源分離
Authors: Ke Chen, Gordon Wichern, Fran\c{c}ois G. Germain, Jonathan Le Roux
Abstract要約: 本稿では,HuBERT音声表現モデルにインスパイアされた音源分離のための自己教師型学習フレームワークを提案する。我々のフレームワークは、元のDemucs V2およびRes-U-Netモデルよりも、MusDB18テストセット上でのソース・歪み比(SDR)の性能を向上させる。
参考スコア（独自算出の注目度）: 37.36998300666784
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In spite of the progress in music source separation research, the small amount of publicly-available clean source data remains a constant limiting factor for performance. Thus, recent advances in self-supervised learning present a largely-unexplored opportunity for improving separation models by leveraging unlabelled music data. In this paper, we propose a self-supervised learning framework for music source separation inspired by the HuBERT speech representation model. We first investigate the potential impact of the original HuBERT model by inserting an adapted version of it into the well-known Demucs V2 time-domain separation model architecture. We then propose a time-frequency-domain self-supervised model, Pac-HuBERT (for primitive auditory clustering HuBERT), that we later use in combination with a Res-U-Net decoder for source separation. Pac-HuBERT uses primitive auditory features of music as unsupervised clustering labels to initialize the self-supervised pretraining process using the Free Music Archive (FMA) dataset. The resulting framework achieves better source-to-distortion ratio (SDR) performance on the MusDB18 test set than the original Demucs V2 and Res-U-Net models. We further demonstrate that it can boost performance with small amounts of supervised data. Ultimately, our proposed framework is an effective solution to the challenge of limited clean source data for music source separation.
Abstract（参考訳）: 音楽ソース分離研究の進展にもかかわらず、利用可能な少量のクリーンソースデータは、パフォーマンスの一定の制限要因であり続けている。このように、近年の自己教師型学習の進歩は、未学習の音楽データを活用することにより、分離モデルを改善するための未探索の機会となる。本稿では,HuBERT音声表現モデルに触発された音源分離のための自己教師型学習フレームワークを提案する。まず,有名な demucs v2 時間領域分離モデルアーキテクチャにその適応バージョンを挿入することで,hubert モデルの潜在的影響について検討した。次に、時間周波数領域の自己教師型モデルであるPac-HuBERT(初期聴覚クラスタリングHuBERT)を提案し、後にソース分離のためにRes-U-Netデコーダと組み合わせて使用する。 pac-hubertは、音楽の原始的な聴覚的特徴を教師なしクラスタリングラベルとして使用し、free music archive (fma)データセットを使用して自己教師なし事前学習プロセスを初期化する。結果として得られたフレームワークは、元の demucs v2 および res-u-net モデルよりも musdb18 テストセットでより良い source-to-distortion ratio (sdr) 性能を達成する。我々はさらに、少量の教師付きデータでパフォーマンスを向上できることを実証する。最終的に,提案フレームワークは,音楽音源分離のための限られたクリーンソースデータに対する効果的な解決法である。

関連論文リスト

MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization [24.991558192161]
音楽理解のための自己教師付き音楽表現学習モデルを提案する。 MuQはMel Residual Vector Quantization(Mel-RVQ)によって生成されるトークンを予測するために訓練される様々なダウンストリームタスクの実験では、MuQが以前の自己教師付き音楽表現モデルより優れていたことが示されている。
論文参考訳（メタデータ） (2025-01-02T07:08:29Z)
Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures [3.463789345862036]
本稿では,コンテキストの潜在表現を生成するために,エンコーダと予測器を協調訓練する,結合埋め込み予測アーキテクチャに基づく新しい手法を提案する。特に,任意の楽器に条件付けした予測器を設計し,ゼロショットステム検索を行えるようにした。 MUSDB18とMoisesDBデータセットを用いて,本モデルの検索性能を検証する。
論文参考訳（メタデータ） (2024-11-29T16:11:47Z)
Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer [22.284107693108073]
音楽の音色伝達は、メロディック構造を保ちながら、音声信号の音色特性を変更することを伴う。本稿では,CocoChoralesデータセットを用いて訓練した二層拡散ブリッジに基づく新しい手法を提案する。 Fr'echet Audio Distance (FAD) とメロディ保存をVAEGANとGFBと比較して低ピッチ距離 (DPD) で再現できることを示す実験結果を得た。
論文参考訳（メタデータ） (2024-09-09T22:16:48Z)
DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。 DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文参考訳（メタデータ） (2024-06-08T12:58:13Z)
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models [14.882764251306094]
本研究は,非侵襲的脳波データを用いて,高品質な音楽再生を実現するための最初の試みである。我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。
論文参考訳（メタデータ） (2024-05-15T03:26:01Z)
Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio [10.946347283718923]
本稿では,プロトタイプ学習に基づく音楽音声分類のための解釈可能なモデルPECMAEを提案する。我々のモデルは,オートエンコーダとプロトタイプネットワークを共同で学習する先行手法であるAPNetに基づいている。プロトタイプベースのモデルはオートエンコーダの埋め込みによって達成された性能の大部分を保っていることがわかった。
論文参考訳（メタデータ） (2024-02-14T17:13:36Z)
DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文参考訳（メタデータ） (2024-01-22T18:10:10Z)
MAPS: A Noise-Robust Progressive Learning Approach for Source-Free Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文参考訳（メタデータ） (2023-02-09T12:06:08Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文参考訳（メタデータ） (2022-09-30T01:49:52Z)
Fast accuracy estimation of deep learning based multi-class musical source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文参考訳（メタデータ） (2020-10-19T13:05:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。