論文の概要: Transcription Is All You Need: Learning to Separate Musical Mixtures
with Score as Supervision
- arxiv url: http://arxiv.org/abs/2010.11904v1
- Date: Thu, 22 Oct 2020 17:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:36:35.847268
- Title: Transcription Is All You Need: Learning to Separate Musical Mixtures
with Score as Supervision
- Title(参考訳): 書き起こしが必要なのは、音楽のミックスをスコアで分けること
- Authors: Yun-Ning Hung, Gordon Wichern, Jonathan Le Roux
- Abstract要約: 音源分離システムのトレーニングには音楽スコアを弱いラベルとして使用する。
我々のシステムは独立した情報源を必要とせず、スコアはトレーニング対象としてのみ使用され、推論には必要ではない。
- 参考スコア(独自算出の注目度): 42.029811695104385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most music source separation systems require large collections of isolated
sources for training, which can be difficult to obtain. In this work, we use
musical scores, which are comparatively easy to obtain, as a weak label for
training a source separation system. In contrast with previous score-informed
separation approaches, our system does not require isolated sources, and score
is used only as a training target, not required for inference. Our model
consists of a separator that outputs a time-frequency mask for each instrument,
and a transcriptor that acts as a critic, providing both temporal and frequency
supervision to guide the learning of the separator. A harmonic mask constraint
is introduced as another way of leveraging score information during training,
and we propose two novel adversarial losses for additional fine-tuning of both
the transcriptor and the separator. Results demonstrate that using score
information outperforms temporal weak-labels, and adversarial structures lead
to further improvements in both separation and transcription performance.
- Abstract(参考訳): ほとんどの音源分離システムは、訓練のために大量の音源の収集を必要とするが、入手は困難である。
本研究では,比較的入手が容易な楽譜を,音源分離システムを訓練するための弱いラベルとして用いる。
従来のスコア非定型分離法とは対照的に,本システムは分離したソースを必要とせず,スコアは推論に必要とせず,トレーニング対象としてのみ使用される。
本モデルは,各楽器の時間周波数マスクを出力するセパレータと,批評家として機能し,時間と周波数の両方を監督し,セパレータの学習を指導するトランクリプタから構成される。
トレーニング中にスコア情報を活用する別の方法として、ハーモニックマスク制約を導入し、スクリプタとセパレータの双方を微調整するための2つの新しい対向損失を提案する。
その結果, スコア情報の利用は時間的弱ラベルよりも優れており, 対立構造は分離と転写性能の両面でさらなる改善をもたらすことがわかった。
関連論文リスト
- Weakly-supervised Audio Separation via Bi-modal Semantic Similarity [21.610354683236885]
既存のmix-and-separateベースのメソッドは、マルチソースのトレーニングミックスで大幅にパフォーマンス低下する。
そこで本研究では,既存の教師なしフレームワークを拡張して,単一ソース信号のターゲットモダリティを分離する汎用バイモーダル分離フレームワークを提案する。
我々のフレームワークは,ベースライン上でのSDR(Signal-to-Distortion Ratio)で71%向上し,教師付き学習性能の97.5%に達することを示す。
論文 参考訳(メタデータ) (2024-04-02T08:59:58Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Self-supervised Auxiliary Loss for Metric Learning in Music
Similarity-based Retrieval and Auto-tagging [0.0]
類似性に基づく検索課題に対処するために,自己教師付き学習アプローチに基づくモデルを提案する。
また, 微調整期間中の増員を控えることで, 良好な結果が得られた。
論文 参考訳(メタデータ) (2023-04-15T02:00:28Z) - Curriculum Learning Meets Weakly Supervised Modality Correlation
Learning [26.754095474534534]
カリキュラム学習を弱教師付きモダリティ相関学習に導入する。
相関学習を支援するために,学習の難しさに応じてトレーニングペアをモデルに供給する。
提案手法は,マルチモーダル感情分析における最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-15T05:11:04Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Word Order Does Not Matter For Speech Recognition [35.96275156733138]
全ての出力フレームの分布を集約する単語レベル音響モデルを訓練する。
次に、コネクショニストの時間的分類損失を用いて文字ベース音響モデルを訓練する。
本システムでは,LibriSpeechの2.4%/5.3%をテストクリーン/テスト-その他のサブセットで実現している。
論文 参考訳(メタデータ) (2021-10-12T13:35:01Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。