論文の概要: Pitch-Informed Instrument Assignment Using a Deep Convolutional Network
with Multiple Kernel Shapes
- arxiv url: http://arxiv.org/abs/2107.13617v1
- Date: Wed, 28 Jul 2021 19:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-07-30 13:07:56.268320
- Title: Pitch-Informed Instrument Assignment Using a Deep Convolutional Network
with Multiple Kernel Shapes
- Title(参考訳): 複数の核形状を持つ深い畳み込みネットワークを用いたピッチ変形器の割り当て
- Authors: Carlos Lordelo, Emmanouil Benetos, Simon Dixon and Sven Ahlb\"ack
- Abstract要約: 本稿では,音階楽器の割り当てを行うための深層畳み込みニューラルネットワークを提案する。
7つの楽器クラスを用いたMusicNetデータセット実験により,本手法は平均Fスコア0.904を達成可能であることが示された。
- 参考スコア(独自算出の注目度): 22.14133334414372
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a deep convolutional neural network for performing
note-level instrument assignment. Given a polyphonic multi-instrumental music
signal along with its ground truth or predicted notes, the objective is to
assign an instrumental source for each note. This problem is addressed as a
pitch-informed classification task where each note is analysed individually. We
also propose to utilise several kernel shapes in the convolutional layers in
order to facilitate learning of efficient timbre-discriminative feature maps.
Experiments on the MusicNet dataset using 7 instrument classes show that our
approach is able to achieve an average F-score of 0.904 when the original
multi-pitch annotations are used as the pitch information for the system, and
that it also excels if the note information is provided using third-party
multi-pitch estimation algorithms. We also include ablation studies
investigating the effects of the use of multiple kernel shapes and comparing
different input representations for the audio and the note-related information.
- Abstract(参考訳): 本稿では,音符レベルの楽器割り当てを行う深層畳み込みニューラルネットワークを提案する。
ポリフォニックなマルチインストラメンタルな音楽信号とその基礎的真実や予測された音符が与えられた場合、それぞれの音符に楽器の音源を割り当てることが目的である。
この問題は、各音符を個別に分析するピッチインフォームド分類タスクとして扱われる。
また,より効率的な音色判別特徴マップの学習を容易にするために,畳み込み層内の複数のカーネル形状を利用する方法を提案する。
7つの楽器クラスを用いたMusicNetデータセット実験により,従来のマルチピッチアノテーションをピッチ情報として用いた場合の平均Fスコアは0.904であり,また,サードパーティのマルチピッチ推定アルゴリズムを用いてノート情報が提供される場合にも優れていた。
また、複数のカーネル形状の使用による影響を調査するアブレーション研究や、音声およびノート関連情報に対する異なる入力表現の比較も含んでいる。
関連論文リスト
- TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文 参考訳(メタデータ) (2022-02-02T10:55:48Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Timbre Classification of Musical Instruments with a Deep Learning
Multi-Head Attention-Based Model [1.7188280334580197]
この研究の目的は、できるだけ少ないパラメータで異なる楽器の音色を識別できるモデルを定義することである。
楽器が同じ音符を同じ強度で演奏している場合でも、音色で楽器を分類する能力を評価することが可能である。
論文 参考訳(メタデータ) (2021-07-13T16:34:19Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z) - Multiple F0 Estimation in Vocal Ensembles using Convolutional Neural
Networks [7.088324036549911]
本稿では、畳み込みニューラルネットワーク(CNN)を用いたポリフォニックとカペラの発声性能から複数のF0値の抽出について述べる。
入力信号のピッチサリエンス関数を生成するために,既存のアーキテクチャを構築した。
トレーニングのために、F0アノテーション付きボーカル四重奏団の複数トラックデータセットからなるデータセットを構築した。
論文 参考訳(メタデータ) (2020-09-09T09:11:49Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。