論文の概要: Timbre Classification of Musical Instruments with a Deep Learning
Multi-Head Attention-Based Model
- arxiv url: http://arxiv.org/abs/2107.06231v1
- Date: Tue, 13 Jul 2021 16:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:27:59.652436
- Title: Timbre Classification of Musical Instruments with a Deep Learning
Multi-Head Attention-Based Model
- Title(参考訳): 深層学習型マルチヘッドアテンションモデルによる楽器の音色分類
- Authors: Carlos Hernandez-Olivan, Jose R. Beltran
- Abstract要約: この研究の目的は、できるだけ少ないパラメータで異なる楽器の音色を識別できるモデルを定義することである。
楽器が同じ音符を同じ強度で演奏している場合でも、音色で楽器を分類する能力を評価することが可能である。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The aim of this work is to define a model based on deep learning that is able
to identify different instrument timbres with as few parameters as possible.
For this purpose, we have worked with classical orchestral instruments played
with different dynamics, which are part of a few instrument families and which
play notes in the same pitch range. It has been possible to assess the ability
to classify instruments by timbre even if the instruments are playing the same
note with the same intensity. The network employed uses a multi-head attention
mechanism, with 8 heads and a dense network at the output taking as input the
log-mel magnitude spectrograms of the sound samples. This network allows the
identification of 20 instrument classes of the classical orchestra, achieving
an overall F$_1$ value of 0.62. An analysis of the weights of the attention
layer has been performed and the confusion matrix of the model is presented,
allowing us to assess the ability of the proposed architecture to distinguish
timbre and to establish the aspects on which future work should focus.
- Abstract(参考訳): この研究の目的は、できるだけ少ないパラメータで異なる楽器の音色を識別できるディープラーニングに基づくモデルを定義することである。
この目的のために、私たちはいくつかの楽器ファミリーの一部であり、同じピッチ範囲で音符を演奏する、異なるダイナミクスで演奏される古典的なオーケストラ楽器と協業してきた。
楽器が同じ音符を同じ強度で演奏している場合でも、音色で楽器を分類する能力を評価することが可能である。
使用したネットワークは、8つのヘッドを持つマルチヘッドアテンション機構と、音響サンプルの対数量スペクトルを入力として出力に高密度ネットワークを使用する。
このネットワークは、クラシックオーケストラの20の楽器クラスを識別でき、全体のf$_1$の値が 0.62 になる。
注目層の重み分析を行い、モデルの混乱行列を示し、提案アーキテクチャが音色を識別する能力を評価し、将来の作業が焦点を置くべき側面を確立することができる。
関連論文リスト
- MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Pitch-Informed Instrument Assignment Using a Deep Convolutional Network
with Multiple Kernel Shapes [22.14133334414372]
本稿では,音階楽器の割り当てを行うための深層畳み込みニューラルネットワークを提案する。
7つの楽器クラスを用いたMusicNetデータセット実験により,本手法は平均Fスコア0.904を達成可能であることが示された。
論文 参考訳(メタデータ) (2021-07-28T19:48:09Z) - Leveraging Hierarchical Structures for Few-Shot Musical Instrument
Recognition [9.768677073327423]
我々は,楽器間の階層的関係を利用して,より広い範囲の楽器の分類を可能にする。
非階層的な少数ショットベースラインと比較すると,本手法は分類精度が著しく向上し,訓練中に見つからない楽器類に対する誤り重大度が著しく低下する。
論文 参考訳(メタデータ) (2021-07-14T22:50:24Z) - Towards Automatic Instrumentation by Learning to Separate Parts in
Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。
オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。
我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文 参考訳(メタデータ) (2021-07-13T08:34:44Z) - Deep Neural Network for Musical Instrument Recognition using MFCCs [0.6445605125467573]
楽器認識は、その音響によって楽器の識別を行うタスクである。
本稿では,20種類の楽器の分類を訓練した人工ニューラルネットワーク(ann)モデルを用いた。
論文 参考訳(メタデータ) (2021-05-03T15:10:34Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Visual Attention for Musical Instrument Recognition [72.05116221011949]
本研究では,楽器認識の性能向上を図るため,音節時間感覚における注意機構,すなわち視覚的注意(la visual attention)の活用について検討する。
第1のアプローチは,各音節時間インスタンスに基づく予測をアグリゲーション前に注意重み付けし,最終的な予測を生成するスライディング・ウインドウ・パラダイムに注意機構を適用した。
第2のアプローチは、ネットワークがスペクトログラムの一部にのみ参加し、限られた回数の視覚的注意を前提として、次にどこに出席するかを決定する、反復的な視覚的注意モデルに基づいている。
論文 参考訳(メタデータ) (2020-06-17T03:56:44Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。