論文の概要: Carnatic Raga Identification System using Rigorous Time-Delay Neural Network
- arxiv url: http://arxiv.org/abs/2405.16000v1
- Date: Sat, 25 May 2024 01:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:39:22.728437
- Title: Carnatic Raga Identification System using Rigorous Time-Delay Neural Network
- Title(参考訳): 剛性時間遅延ニューラルネットワークを用いたカルナティックラガ同定システム
- Authors: Sanjay Natesan, Homayoon Beigi,
- Abstract要約: 大規模な機械学習に基づくRaga識別は、カルナティック音楽の背後にある計算的側面において、いまだに非自明な問題である。
本稿では,離散フーリエ変換と三角フィルタを用いて音符のカスタムビンを生成するステップの組み合わせを用いて,入力音を解析する。
このプログラムの目的は、より広い範囲のオーディオクリップを、よりシュルーティス、ラガ、よりバックグラウンドノイズで効果的かつ効率的にラベル付けできるようにすることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large scale machine learning-based Raga identification continues to be a nontrivial issue in the computational aspects behind Carnatic music. Each raga consists of many unique and intrinsic melodic patterns that can be used to easily identify them from others. These ragas can also then be used to cluster songs within the same raga, as well as identify songs in other closely related ragas. In this case, the input sound is analyzed using a combination of steps including using a Discrete Fourier transformation and using Triangular Filtering to create custom bins of possible notes, extracting features from the presence of particular notes or lack thereof. Using a combination of Neural Networks including 1D Convolutional Neural Networks conventionally known as Time-Delay Neural Networks) and Long Short-Term Memory (LSTM), which are a form of Recurrent Neural Networks, the backbone of the classification strategy to build the model can be created. In addition, to help with variations in shruti, a long-time attention-based mechanism will be implemented to determine the relative changes in frequency rather than the absolute differences. This will provide a much more meaningful data point when training audio clips in different shrutis. To evaluate the accuracy of the classifier, a dataset of 676 recordings is used. The songs are distributed across the list of ragas. The goal of this program is to be able to effectively and efficiently label a much wider range of audio clips in more shrutis, ragas, and with more background noise.
- Abstract(参考訳): 大規模な機械学習に基づくRaga識別は、カルナティック音楽の背後にある計算的側面において、いまだに非自明な問題である。
それぞれのラガは固有のメロディックパターンを多く含み、容易に他のものと識別することができる。
これらのラガは、同じラガの曲をクラスタリングしたり、他の密接に関連するラガの曲を識別したりすることもできる。
この場合、離散フーリエ変換と三角フィルタを組み合わせたステップの組み合わせを用いて入力音を解析し、可能な音符のカスタムビンを作成し、特定の音符の存在や欠落から特徴を抽出する。
1次元畳み込みニューラルネットワークを含む1次元畳み込みニューラルネットワークと、リカレントニューラルネットワークの形式であるLSTM(Long Short-Term Memory)を組み合わせることで、モデルを構築するための分類戦略のバックボーンを作成することができる。
さらに、シュルティの変動に役立てるために、絶対的な違いではなく、周波数の相対的な変化を決定するために、長時間の注意に基づくメカニズムが実装される。
これは、異なるシュルーティスでオーディオクリップをトレーニングするときに、より意味のあるデータポイントを提供する。
分類器の精度を評価するために、676レコードのデータセットを使用する。
曲はラガのリストに散らばっている。
このプログラムの目的は、より広い範囲のオーディオクリップを、よりシュルーティス、ラガ、よりバックグラウンドノイズで効果的かつ効率的にラベル付けできるようにすることである。
関連論文リスト
- How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Supervised Chorus Detection for Popular Music Using Convolutional Neural
Network and Multi-task Learning [10.160205869706965]
本稿では,ポピュラー音楽のコーラスセグメントを検出するための新しい教師付きアプローチを提案する。
本稿では,2つの時間的アクティベーション曲線に同時に適合するマルチタスク学習目的の畳み込みニューラルネットワークを提案する。
また,合唱と境界予測を共同で考慮し,バイナリ出力を生成するポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2021-03-26T04:32:08Z) - Hierarchical Recurrent Neural Networks for Conditional Melody Generation
with Long-term Structure [0.0]
階層型リカレントニューラルネットワークを用いた条件付きメロディ生成モデルを提案する。
このモデルは、与えられたコード伴奏に基づいて長期構造を持つメロディーを生成する。
聴取試験の結果,CM-HRNNは長期的構造と総合評価においてアテンションRNNよりも優れていた。
論文 参考訳(メタデータ) (2021-02-19T08:22:26Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Reservoir Memory Machines as Neural Computers [70.5993855765376]
微分可能なニューラルネットワークは、干渉することなく明示的なメモリで人工ニューラルネットワークを拡張する。
我々は、非常に効率的に訓練できるモデルを用いて、微分可能なニューラルネットワークの計算能力を実現する。
論文 参考訳(メタデータ) (2020-09-14T12:01:30Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。