論文の概要: Bangla Music Genre Classification Using Bidirectional LSTMS
- arxiv url: http://arxiv.org/abs/2601.15083v1
- Date: Wed, 21 Jan 2026 15:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.41998
- Title: Bangla Music Genre Classification Using Bidirectional LSTMS
- Title(参考訳): 双方向LSTMSを用いたBangla Music Genreの分類
- Authors: Muntakimur Rahaman, Md Mahmudul Hoque, Md Mehedi Hassain,
- Abstract要約: 本研究では,Mel-Frequency Cepstral Coefficients (MFCCs)を用いて生音声波形をコンパクトかつ代表的な特徴セットに変換する。
実験の結果、分類精度は78%であり、バングラ音楽ジャンルの組織を強化し合理化するためのシステムの可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bangla music is enrich in its own music cultures. Now a days music genre classification is very significant because of the exponential increase in available music, both in digital and physical formats. It is necessary to index them accordingly to facilitate improved retrieval. Automatically classifying Bangla music by genre is essential for efficiently locating specific pieces within a vast and diverse music library. Prevailing methods for genre classification predominantly employ conventional machine learning or deep learning approaches. This work introduces a novel music dataset comprising ten distinct genres of Bangla music. For the task of audio classification, we utilize a recurrent neural network (RNN) architecture. Specifically, a Long Short-Term Memory (LSTM) network is implemented to train the model and perform the classification. Feature extraction represents a foundational stage in audio data processing. This study utilizes Mel-Frequency Cepstral Coefficients (MFCCs) to transform raw audio waveforms into a compact and representative set of features. The proposed framework facilitates music genre classification by leveraging these extracted features. Experimental results demonstrate a classification accuracy of 78%, indicating the system's strong potential to enhance and streamline the organization of Bangla music genres.
- Abstract(参考訳): バングラ音楽は独自の音楽文化に富んでいる。
現在、デジタル形式と物理形式の両方において、利用可能な音楽が指数関数的に増加しているため、音楽ジャンルの分類は非常に重要である。
改善された検索を容易にするためには、それらをインデクシングする必要がある。
バングラ音楽のジャンル別の自動分類は、広範かつ多様な音楽図書館内で特定の曲を効率よく見つけ出すのに不可欠である。
ジャンル分類の一般的な方法は、主に従来の機械学習またはディープラーニングアプローチを採用する。
この作品には、バングラ音楽の10つの異なるジャンルからなる新しい音楽データセットが導入されている。
音声分類のタスクでは、リカレントニューラルネットワーク(RNN)アーキテクチャを利用する。
具体的には,Long Short-Term Memory (LSTM) ネットワークを実装してモデルをトレーニングし,分類を行う。
特徴抽出は、オーディオデータ処理の基本的な段階を表す。
本研究では,Mel-Frequency Cepstral Coefficients (MFCCs)を用いて生音声波形をコンパクトかつ代表的な特徴セットに変換する。
提案手法は,これらの特徴を活かして音楽ジャンルの分類を容易にする。
実験の結果、分類精度は78%であり、バングラ音楽ジャンルの組織を強化し合理化するためのシステムの可能性を示している。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。
本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T11:10:57Z) - Music Genre Classification: Ensemble Learning with Subcomponents-level Attention [2.553456266022126]
Music Genre Classificationは、音楽情報検索(MIR)とデジタル信号処理の分野で最も人気のあるトピックの1つである。
本論文は,アンサンブル学習とサブコンポーネントへの注意を組み合わせ,音楽ジャンルの同定精度を高めることを目的とした,新たなアプローチを提案する。
提案手法は,GTZANデータセット上でトレーニングおよび試験を行った他の最先端技術と比較して,精度の面で優れている。
論文 参考訳(メタデータ) (2024-12-20T06:50:31Z) - Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。
パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。
ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文 参考訳(メタデータ) (2024-10-19T05:44:05Z) - Music Genre Classification with ResNet and Bi-GRU Using Visual
Spectrograms [4.354842354272412]
手動のジャンル分類の限界は、より高度なシステムの必要性を強調している。
従来の機械学習技術はジャンル分類の可能性を示してきたが、音楽データの完全な複雑さを捉えられなかった。
本研究では,視覚スペクトログラムを入力として用いる新しいアプローチを提案し,Residual Neural Network(ResNet)とGated Recurrent Unit(GRU)の強みを組み合わせたハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T11:10:06Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - Complex Network-Based Approach for Feature Extraction and Classification
of Musical Genres [0.0]
本研究は,音楽ジャンルの自動分類のための特徴抽出手法を提案する。
提案手法はまずまず音符の列に変換し,その列を複雑なネットワークとしてマッピングする。
音楽ジャンルの分類に適用可能な特徴ベクトルを構成するネットワークトポロジを特徴付けるために、トポロジ測定を抽出する。
論文 参考訳(メタデータ) (2021-10-09T22:23:33Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。