論文の概要: Multitask learning for instrument activation aware music source
separation
- arxiv url: http://arxiv.org/abs/2008.00616v1
- Date: Mon, 3 Aug 2020 02:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 07:18:06.999583
- Title: Multitask learning for instrument activation aware music source
separation
- Title(参考訳): 楽器アクティベーションを考慮した音源分離のためのマルチタスク学習
- Authors: Yun-Ning Hung and Alexander Lerch
- Abstract要約: 本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。
その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 83.30944624666839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music source separation is a core task in music information retrieval which
has seen a dramatic improvement in the past years. Nevertheless, most of the
existing systems focus exclusively on the problem of source separation itself
and ignore the utilization of other~---possibly related---~MIR tasks which
could lead to additional quality gains. In this work, we propose a novel
multitask structure to investigate using instrument activation information to
improve source separation performance. Furthermore, we investigate our system
on six independent instruments, a more realistic scenario than the three
instruments included in the widely-used MUSDB dataset, by leveraging a
combination of the MedleyDB and Mixing Secrets datasets. The results show that
our proposed multitask model outperforms the baseline Open-Unmix model on the
mixture of Mixing Secrets and MedleyDB dataset while maintaining comparable
performance on the MUSDB dataset.
- Abstract(参考訳): 音楽ソースの分離は音楽情報検索のコアタスクであり、ここ数年で劇的に改善されてきた。
しかし、既存のシステムのほとんどは、ソース分離自体の問題にのみ焦点を合わせ、他の--------MIRタスクを無視することで、さらなる品質向上につながる可能性がある。
本研究では,機器アクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
さらに,MedleyDBデータセットとMixing Secretsデータセットを組み合わせることで,広く使用されているMUSDBデータセットに含まれる3つの機器よりも現実的な6つの独立した機器について検討した。
その結果,提案したマルチタスクモデルは,MUSDBデータセットで同等の性能を維持しつつ,MedleyDBデータセットとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていた。
関連論文リスト
- LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data [3.66486428341988]
マルチモーダルディープラーニングは、テキスト、画像、オーディオ、ビデオなどの多様な情報ソースを統合することで意思決定を強化する。
信頼性の高いマルチモーダルアプローチを開発するためには、これらのモデルがいかに不確実性に与える影響を理解することが不可欠である。
我々は,不確実かつマルチモーダルなデータから学習するために,50クラスの音声,画像,テキストデータを含むユニークなベンチマークデータセットLUMAを紹介する。
論文 参考訳(メタデータ) (2024-06-14T09:22:07Z) - COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
そこで我々は,Collaborative Learning-based Tool Retrieval approach, COLTを提案する。
COLTはユーザクエリとツール記述のセマンティックな類似性をキャプチャする。
また、ツールの協調的な情報も考慮に入れている。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Mixing-Specific Data Augmentation Techniques for Improved Blind
Violin/Piano Source Separation [29.956390660450484]
ブラインド音源の分離は、音楽情報検索と信号処理のコミュニティの両方で広く研究されている。
教師付きモデルトレーニングに利用可能なマルチトラックデータがないことに対処するため, 人工混合物を作成するデータ拡張法が近年, 有用であることが示されている。
本稿では,現代音楽制作ルーチンにおけるより洗練されたミキシング設定,トラック間の関係,沈黙の要因について考察する。
論文 参考訳(メタデータ) (2020-08-06T07:02:24Z) - MusPy: A Toolkit for Symbolic Music Generation [32.01713268702699]
MusPyは、シンボリック音楽生成のためのオープンソースのPythonライブラリである。
本稿では,現在MusPyが支援している11のデータセットの統計的解析について述べる。
論文 参考訳(メタデータ) (2020-08-05T06:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。