論文の概要: Kinit Classification in Ethiopian Chants, Azmaris and Modern Music: A
New Dataset and CNN Benchmark
- arxiv url: http://arxiv.org/abs/2201.08448v1
- Date: Thu, 20 Jan 2022 20:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-24 15:01:09.566947
- Title: Kinit Classification in Ethiopian Chants, Azmaris and Modern Music: A
New Dataset and CNN Benchmark
- Title(参考訳): エチオピアのチャント・アズマリス・現代音楽におけるキニト分類 : 新しいデータセットとCNNベンチマーク
- Authors: Ephrem A. Retta, Richard Sutcliffe, Eiad Almekhlafi, Yosef K. Enku,
Eyob Alemu, Tigist D. Gemechu, Michael A. Berwo, Mustafa Mhamed, Jun Feng
- Abstract要約: エチオピア音楽のための最初の音楽情報検索データセットであるEMIRを作成する。
EMIRには、正統的なテワヘドの聖歌、伝統的なアズマリの歌、現代のエチオピアの世俗音楽の600曲が収録されている。
それぞれの標本は5人の専門家によって4つの有名なエチオピア・キニツの1つに分類される。
- 参考スコア(独自算出の注目度): 0.9506942292536568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we create EMIR, the first-ever Music Information Retrieval
dataset for Ethiopian music. EMIR is freely available for research purposes and
contains 600 sample recordings of Orthodox Tewahedo chants, traditional Azmari
songs and contemporary Ethiopian secular music. Each sample is classified by
five expert judges into one of four well-known Ethiopian Kinits, Tizita, Bati,
Ambassel and Anchihoye. Each Kinit uses its own pentatonic scale and also has
its own stylistic characteristics. Thus, Kinit classification needs to combine
scale identification with genre recognition. After describing the dataset, we
present the Ethio Kinits Model (EKM), based on VGG, for classifying the EMIR
clips. In Experiment 1, we investigated whether Filterbank, Mel-spectrogram,
Chroma, or Mel-frequency Cepstral coefficient (MFCC) features work best for
Kinit classification using EKM. MFCC was found to be superior and was therefore
adopted for Experiment 2, where the performance of EKM models using MFCC was
compared using three different audio sample lengths. 3s length gave the best
results. In Experiment 3, EKM and four existing models were compared on the
EMIR dataset: AlexNet, ResNet50, VGG16 and LSTM. EKM was found to have the best
accuracy (95.00%) as well as the fastest training time. We hope this work will
encourage others to explore Ethiopian music and to experiment with other models
for Kinit classification.
- Abstract(参考訳): 本稿では,エチオピア音楽のための最初の音楽情報検索データセットであるEMIRを作成する。
emirは研究目的で無料で入手でき、正統派テワヘド聖歌、伝統的なアズマリ歌、現代エチオピアの世俗音楽の600曲のサンプル録音がある。
各サンプルは5人の専門家の裁判官によってティジタ、バティ、アンバッセル、アンチホエの4つの有名なキニトのうちの1つに分類される。
それぞれのKinitは独自のペンタトニックスケールを使用し、独自のスタイル特性を持つ。
したがって、キニット分類はスケール識別とジャンル認識を組み合わせる必要がある。
データセットを記述した後、EMIRクリップを分類するためのVGGに基づくEthio Kinits Model(EKM)を提案する。
実験1では,Filterbank,Mel-spectrogram,Chroma,Mel- frequency Cepstral coefficient (MFCC) がキニット分類に最適であるかどうかを検討した。
MFCCは優れており、実験2ではMFCCを用いたEKMモデルの性能を3つの異なるサンプル長を用いて比較した。
3sは最高の結果を得た。
実験3では、EKMと既存の4つのモデルをEMIRデータセット(AlexNet、ResNet50、VGG16、LSTM)で比較した。
EKMは最高の精度(95.00%)と最速の訓練時間を持つことが判明した。
この研究によって、エチオピア音楽の探索や、キニット分類のための他のモデルの実験が促進されることを願っている。
関連論文リスト
- Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-01-09T01:50:31Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - A New Amharic Speech Emotion Dataset and Classification Benchmark [2.016873776192994]
本研究では,4つの方言と5つの感情を網羅したAmharic Speech Emotion dataset(ASED)を提案する。
VGGbと呼ばれるよく知られたVGGモデルの4層版を開発した。
その後、ASEDを用いてVGGb for SERを用いて3つの実験を行った。
論文 参考訳(メタデータ) (2022-01-07T23:50:34Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Holistic Semi-Supervised Approaches for EEG Representation Learning [14.67085109524245]
我々は、MixMatch、FixMatch、AdaMatchの3つの全体論的半教師付きアプローチと、脳波学習のための古典的半教師付き手法を適用した。
ラベル付きサンプルの量が異なる実験では、クラスごとにラベル付きサンプルが1つしか使われていない場合でも、全体論的アプローチが強い結果が得られることが示されている。
論文 参考訳(メタデータ) (2021-09-24T03:58:13Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - CIM: Class-Irrelevant Mapping for Few-Shot Classification [58.02773394658623]
FSC(Few-shot Classification)は近年のホットな問題の一つである。
事前訓練されたFEMを評価する方法は、FSCコミュニティにおいて最も重要な焦点である。
CIM(Class-Irrelevant Mapping)と呼ばれるシンプルなフレキシブルな手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T03:26:24Z) - A Comparative Study on Neural Architectures and Training Methods for
Japanese Speech Recognition [12.111256995668969]
本稿では,最新のE2Eモデリング技術に注目し,文字ベース日本語ASRの性能について検討する。
最高の構成は、それぞれ独立日本語コーパス(CSJ)eval1、eval2、eval3タスクの4.1%、3.2%、および3.5%という最先端の文字誤り率を達成した。
論文 参考訳(メタデータ) (2021-06-09T14:42:29Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Neural Network architectures to classify emotions in Indian Classical
Music [0.0]
JUMusEmoDBと呼ばれる新しいデータセットは、現在400のオーディオクリップ(それぞれ30秒)を持っている。
教師付き分類のために、我々は既存の4つの深層畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを使用した。
インド古典音楽の豊富なコーパスを用いたCNNに基づく分類アルゴリズムは,グローバルな視点においても独特である。
論文 参考訳(メタデータ) (2021-02-01T03:41:25Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。