論文の概要: A Study on Broadcast Networks for Music Genre Classification
- arxiv url: http://arxiv.org/abs/2208.12086v1
- Date: Thu, 25 Aug 2022 13:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:53:51.161304
- Title: A Study on Broadcast Networks for Music Genre Classification
- Title(参考訳): 音楽ジャンル分類のための放送ネットワークに関する研究
- Authors: Ahmed Heakl, Abdelrahman Abdelgawad, Victor Parque
- Abstract要約: 本稿では,小さなパラメータセットの下での局所化と一般化性の向上を目的とした,放送型ニューラルネットワークについて検討する。
我々のアプローチは、音楽と音声の分類のためのコンパクトで一般化可能なブロードキャストネットワークを実現するための洞察と可能性を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the increased demand for music streaming/recommender services and the
recent developments of music information retrieval frameworks, Music Genre
Classification (MGC) has attracted the community's attention. However,
convolutional-based approaches are known to lack the ability to efficiently
encode and localize temporal features. In this paper, we study the
broadcast-based neural networks aiming to improve the localization and
generalizability under a small set of parameters (about 180k) and investigate
twelve variants of broadcast networks discussing the effect of block
configuration, pooling method, activation function, normalization mechanism,
label smoothing, channel interdependency, LSTM block inclusion, and variants of
inception schemes. Our computational experiments using relevant datasets such
as GTZAN, Extended Ballroom, HOMBURG, and Free Music Archive (FMA) show
state-of-the-art classification accuracies in Music Genre Classification. Our
approach offers insights and the potential to enable compact and generalizable
broadcast networks for music and audio classification.
- Abstract(参考訳): 音楽ストリーミング/リコンペンダーサービスの需要の増加と、近年の音楽情報検索フレームワークの発展により、音楽ジャンル分類(mgc)がコミュニティの注目を集めている。
しかし、畳み込みに基づくアプローチには、時間的特徴を効率的にエンコードし、ローカライズする能力がないことが知られている。
本稿では,小さなパラメータセット(約180k)で局所化と一般化性を改善することを目的としたブロードキャストベースニューラルネットワークについて検討し,ブロック構成,プーリング方法,アクティベーション機能,正規化機構,ラベルスムーシング,チャネル間依存性,LSTMブロック包摂性,インセプションスキームの変種など,12種類のブロードキャストネットワークについて検討する。
GTZAN,Extended Ballroom,HOMBURG,Free Music Archive (FMA) などの関連するデータセットを用いた計算実験により,音楽ジャンル分類における最先端の分類精度を示す。
我々のアプローチは、音楽と音声の分類のためのコンパクトで一般化可能なブロードキャストネットワークを実現するための洞察と可能性を提供する。
関連論文リスト
- Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。
パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。
ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文 参考訳(メタデータ) (2024-10-19T05:44:05Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Music Genre Classification with ResNet and Bi-GRU Using Visual
Spectrograms [4.354842354272412]
手動のジャンル分類の限界は、より高度なシステムの必要性を強調している。
従来の機械学習技術はジャンル分類の可能性を示してきたが、音楽データの完全な複雑さを捉えられなかった。
本研究では,視覚スペクトログラムを入力として用いる新しいアプローチを提案し,Residual Neural Network(ResNet)とGated Recurrent Unit(GRU)の強みを組み合わせたハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T11:10:06Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Interpreting Class Conditional GANs with Channel Awareness [57.01413866290279]
クラス条件生成器が複数のクラスの合成をどのように統合するかを検討する。
このような現象を説明するために、単一チャネルが最終合成にどのように貢献するかを定量的に特徴づけるチャネル認識を提案する。
我々のアルゴリズムは条件付きGANでいくつかの新しい応用を可能にする。
論文 参考訳(メタデータ) (2022-03-21T17:53:22Z) - Complex Network-Based Approach for Feature Extraction and Classification
of Musical Genres [0.0]
本研究は,音楽ジャンルの自動分類のための特徴抽出手法を提案する。
提案手法はまずまず音符の列に変換し,その列を複雑なネットワークとしてマッピングする。
音楽ジャンルの分類に適用可能な特徴ベクトルを構成するネットワークトポロジを特徴付けるために、トポロジ測定を抽出する。
論文 参考訳(メタデータ) (2021-10-09T22:23:33Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。