論文の概要: Deep Neural Network for Musical Instrument Recognition using MFCCs
- arxiv url: http://arxiv.org/abs/2105.00933v2
- Date: Wed, 5 May 2021 13:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 01:40:45.238296
- Title: Deep Neural Network for Musical Instrument Recognition using MFCCs
- Title(参考訳): MFCCを用いた楽器認識のためのディープニューラルネットワーク
- Authors: Saranga Kingkor Mahanta, Abdullah Faiz Ur Rahman Khilji, Partha Pakray
- Abstract要約: 楽器認識は、その音響によって楽器の識別を行うタスクである。
本稿では,20種類の楽器の分類を訓練した人工ニューラルネットワーク(ann)モデルを用いた。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of efficient automatic music classification is of vital importance
and forms the basis for various advanced applications of AI in the musical
domain. Musical instrument recognition is the task of instrument identification
by virtue of its audio. This audio, also termed as the sound vibrations are
leveraged by the model to match with the instrument classes. In this paper, we
use an artificial neural network (ANN) model that was trained to perform
classification on twenty different classes of musical instruments. Here we use
use only the mel-frequency cepstral coefficients (MFCCs) of the audio data. Our
proposed model trains on the full London philharmonic orchestra dataset which
contains twenty classes of instruments belonging to the four families viz.
woodwinds, brass, percussion, and strings. Based on experimental results our
model achieves state-of-the-art accuracy on the same.
- Abstract(参考訳): 効率的な自動音楽分類の課題は重要であり、音楽分野におけるAIの様々な高度な応用の基礎を形成する。
楽器認識は、その音響によって楽器の識別を行うタスクである。
音の振動」とも呼ばれるこの音は、楽器のクラスに合わせてモデルによって活用される。
本稿では,20種類の楽器の分類を訓練した人工ニューラルネットワーク(ann)モデルを用いた。
ここでは、音声データのメル周波数ケプストラム係数(MFCC)のみを用いる。
提案するモデルトレインは, ロンドン・フィルハーモニック・オーケストラ・データセットで, 4つの家系に属する20種類の楽器を含む。
木管、金管、打楽器、弦。
実験結果に基づいて,本モデルは同じ精度で得られた。
関連論文リスト
- Improving Musical Instrument Classification with Advanced Machine Learning Techniques [0.0]
近年の機械学習、特にディープラーニングの進歩により、楽器を音声信号から識別し分類する能力が強化されている。
本研究では,Naive Bayes,Support Vector Machines,Random Forests,AdaBoostやXGBoostといったBootingテクニックなど,さまざまな機械学習手法を適用した。
これらの手法の有効性を,注釈付き音声の大規模リポジトリであるN Synthデータセットを用いて評価した。
論文 参考訳(メタデータ) (2024-11-01T00:13:46Z) - Music Genre Classification: Training an AI model [0.0]
音楽ジャンル分類は、音声信号の処理に機械学習モデルと技法を利用する分野である。
本研究では,音楽ジャンル分類のための機械学習アルゴリズムについて,音声信号から抽出した特徴を用いて検討する。
ジャンル分類のための機械学習モデルの堅牢性を評価し、その結果を比較することを目的としている。
論文 参考訳(メタデータ) (2024-05-23T23:07:01Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Timbre Classification of Musical Instruments with a Deep Learning
Multi-Head Attention-Based Model [1.7188280334580197]
この研究の目的は、できるだけ少ないパラメータで異なる楽器の音色を識別できるモデルを定義することである。
楽器が同じ音符を同じ強度で演奏している場合でも、音色で楽器を分類する能力を評価することが可能である。
論文 参考訳(メタデータ) (2021-07-13T16:34:19Z) - Towards Automatic Instrumentation by Learning to Separate Parts in
Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。
オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。
我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文 参考訳(メタデータ) (2021-07-13T08:34:44Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。