論文の概要: Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
- arxiv url: http://arxiv.org/abs/2411.19806v1
- Date: Fri, 29 Nov 2024 16:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:18:46.892739
- Title: Zero-shot Musical Stem Retrieval with Joint-Embedding Predictive Architectures
- Title(参考訳): 組込み予測アーキテクチャを用いたゼロショット音楽ステレオ検索
- Authors: Alain Riou, Antonin Gagneré, Gaëtan Hadjeres, Stefan Lattner, Geoffroy Peeters,
- Abstract要約: 本稿では,コンテキストの潜在表現を生成するために,エンコーダと予測器を協調訓練する,結合埋め込み予測アーキテクチャに基づく新しい手法を提案する。
特に,任意の楽器に条件付けした予測器を設計し,ゼロショットステム検索を行えるようにした。
MUSDB18とMoisesDBデータセットを用いて,本モデルの検索性能を検証する。
- 参考スコア(独自算出の注目度): 3.463789345862036
- License:
- Abstract: In this paper, we tackle the task of musical stem retrieval. Given a musical mix, it consists in retrieving a stem that would fit with it, i.e., that would sound pleasant if played together. To do so, we introduce a new method based on Joint-Embedding Predictive Architectures, where an encoder and a predictor are jointly trained to produce latent representations of a context and predict latent representations of a target. In particular, we design our predictor to be conditioned on arbitrary instruments, enabling our model to perform zero-shot stem retrieval. In addition, we discover that pretraining the encoder using contrastive learning drastically improves the model's performance. We validate the retrieval performances of our model using the MUSDB18 and MoisesDB datasets. We show that it significantly outperforms previous baselines on both datasets, showcasing its ability to support more or less precise (and possibly unseen) conditioning. We also evaluate the learned embeddings on a beat tracking task, demonstrating that they retain temporal structure and local information.
- Abstract(参考訳): 本稿では,音楽幹細胞検索の課題に取り組む。
音楽的なミックスが与えられたとき、それはそれと適合する茎、つまり一緒に演奏すれば楽しそうに聞こえる茎を回収することで構成される。
そこで我々は,エンコーダと予測器を協調訓練してコンテキストの潜在表現を生成し,対象の潜在表現を予測する,ジョイント埋め込み予測アーキテクチャに基づく新しい手法を提案する。
特に,任意の楽器に条件付けした予測器を設計し,ゼロショットステム検索を行えるようにした。
さらに,コントラスト学習を用いたエンコーダの事前学習により,モデルの性能が大幅に向上することが判明した。
MUSDB18とMoisesDBデータセットを用いて,本モデルの検索性能を検証する。
両方のデータセットで以前のベースラインを著しく上回り、多かれ少なかれ正確に(おそらくは見えない)条件付けをサポートする能力を示している。
また、ビートトラッキングタスクに学習した埋め込みを評価し、時間的構造と局所的な情報を保持することを示した。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。
本モデルでは, エンコーダと予測器の2つのネットワークから構成される。
MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文 参考訳(メタデータ) (2024-08-05T14:34:40Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Learning Hierarchical Metrical Structure Beyond Measures [3.7294116330265394]
階層構造アノテーションは、音楽情報検索とコンピュータ音楽学に役立つ。
スコアから階層的メートル法構造を自動的に抽出するデータ駆動手法を提案する。
提案手法は,異なるオーケストレーション環境下でのルールベースアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-09-21T11:08:52Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - Music Generation with Temporal Structure Augmentation [0.0]
提案手法は,歌の結末をカウントダウンしたコネクショニスト生成モデルと,余分な入力特徴としてメーターマーカーを付加する。
LSTMセルを持つRNNアーキテクチャは、教師付きシーケンス学習設定でノッティンガムフォークミュージックデータセットに基づいて訓練される。
実験では、両方のアノテーションの予測性能が改善された。
論文 参考訳(メタデータ) (2020-04-21T19:19:58Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。