論文の概要: A dataset and classification model for Malay, Hindi, Tamil and Chinese
music
- arxiv url: http://arxiv.org/abs/2009.04459v2
- Date: Tue, 15 Sep 2020 05:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:25:12.922143
- Title: A dataset and classification model for Malay, Hindi, Tamil and Chinese
music
- Title(参考訳): マレー語、ヒンディー語、タミル語、中国音楽のデータセットと分類モデル
- Authors: Fajilatun Nahar, Kat Agres, Balamurali BT and Dorien Herremans
- Abstract要約: この新しいデータセットを用いて、異なる分類モデルを訓練し、これらの民族集団の観点から音楽の起源を区別する。
分類モデルは、異なる音楽的特徴を入力として使用することによって最適化された。
- 参考スコア(独自算出の注目度): 7.35996217853436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present a new dataset, with musical excepts from the three
main ethnic groups in Singapore: Chinese, Malay and Indian (both Hindi and
Tamil). We use this new dataset to train different classification models to
distinguish the origin of the music in terms of these ethnic groups. The
classification models were optimized by exploring the use of different musical
features as the input. Both high level features, i.e., musically meaningful
features, as well as low level features, i.e., spectrogram based features, were
extracted from the audio files so as to optimize the performance of the
different classification models.
- Abstract(参考訳): 本稿では,シンガポールの3つの主要民族(中国,マレー,インド(ヒンディー語,タミル語)を除く)の音楽を除いた新しいデータセットを提案する。
この新しいデータセットを用いて、異なる分類モデルを訓練し、これらの民族集団の観点から音楽の起源を区別する。
分類モデルは、入力として異なる音楽的特徴の使用を探索することで最適化された。
音楽的に有意義な特徴と低レベルの特徴、すなわちスペクトログラムに基づく特徴の両方をオーディオファイルから抽出し、異なる分類モデルの性能を最適化した。
関連論文リスト
- MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music [21.380568107727207]
中国語で書かれた最初のオープンソース音楽記述ベンチマークであるMuChinを紹介する。
MuChinは、音楽の理解と記述において、マルチモーダルな大規模言語モデルの性能を評価するように設計されている。
ベンチマークに関連するすべてのデータは、スコアコードと詳細な付録とともに、オープンソース化されている。
論文 参考訳(メタデータ) (2024-02-15T10:55:01Z) - Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-01-09T01:50:31Z) - From West to East: Who can understand the music of the others better? [91.78564268397139]
我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。
西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
論文 参考訳(メタデータ) (2023-07-19T07:29:14Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - Complex Network-Based Approach for Feature Extraction and Classification
of Musical Genres [0.0]
本研究は,音楽ジャンルの自動分類のための特徴抽出手法を提案する。
提案手法はまずまず音符の列に変換し,その列を複雑なネットワークとしてマッピングする。
音楽ジャンルの分類に適用可能な特徴ベクトルを構成するネットワークトポロジを特徴付けるために、トポロジ測定を抽出する。
論文 参考訳(メタデータ) (2021-10-09T22:23:33Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。