論文の概要: MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification
- arxiv url: http://arxiv.org/abs/2209.04109v1
- Date: Fri, 9 Sep 2022 03:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:34:37.087910
- Title: MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification
- Title(参考訳): MATT:ロングテール音楽ジャンル分類のための複数インスタンス注意機構
- Authors: Xiaokai Liu, Menghua Zhang
- Abstract要約: 不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imbalanced music genre classification is a crucial task in the Music
Information Retrieval (MIR) field for identifying the long-tail, data-poor
genre based on the related music audio segments, which is very prevalent in
real-world scenarios. Most of the existing models are designed for
class-balanced music datasets, resulting in poor performance in accuracy and
generalization when identifying the music genres at the tail of the
distribution. Inspired by the success of introducing Multi-instance Learning
(MIL) in various classification tasks, we propose a novel mechanism named
Multi-instance Attention (MATT) to boost the performance for identifying tail
classes. Specifically, we first construct the bag-level datasets by generating
the album-artist pair bags. Second, we leverage neural networks to encode the
music audio segments. Finally, under the guidance of a multi-instance attention
mechanism, the neural network-based models could select the most informative
genre to match the given music segment. Comprehensive experimental results on a
large-scale music genre benchmark dataset with long-tail distribution
demonstrate MATT significantly outperforms other state-of-the-art baselines.
- Abstract(参考訳): 非バランスな音楽ジャンル分類は、音楽情報検索(mir)の分野で重要な課題であり、実世界のシナリオにおいて非常に一般的である、関連する音楽オーディオセグメントに基づいて、ロングテール、データポーアジャンルを特定する。
既存のモデルの多くは、クラスバランスの音楽データセット用に設計されており、分布の尾にある音楽ジャンルを特定する際に、精度と一般化が低い。
様々な分類タスクにおけるマルチインスタンス学習(MIL)の導入の成功に触発されて,末尾クラスの識別性能を高めるために,MATT(Multi-instance Attention)と呼ばれる新しいメカニズムを提案する。
具体的には,まずアルバムとアーティストのペアバッグを生成することで,バッグレベルのデータセットを構築する。
第2に,ニューラルネットを用いて音楽音声セグメントを符号化する。
最後に、マルチインスタンスアテンションメカニズムの指導の下で、ニューラルネットワークベースのモデルは、与えられた音楽セグメントにマッチする最も情報性の高いジャンルを選択することができる。
長期分布を持つ大規模音楽ジャンルベンチマークの総合的な実験結果は、MATTが他の最先端のベースラインを著しく上回ることを示している。
関連論文リスト
- Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。
パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。
ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文 参考訳(メタデータ) (2024-10-19T05:44:05Z) - Benchmarking Sub-Genre Classification For Mainstage Dance Music [6.042939894766715]
この研究は、新しいデータセットとベースラインからなる新しいベンチマークを導入する。
我々のデータセットは、世界中の音楽祭のトップDJによる最新のメインステージのライブセットをカバーするために、サブジャンルの数を拡張しています。
ベースラインとして,現在最先端のマルチモデル言語モデルよりも優れたディープラーニングモデルを開発した。
論文 参考訳(メタデータ) (2024-09-10T17:54:00Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Music Genre Classification with ResNet and Bi-GRU Using Visual
Spectrograms [4.354842354272412]
手動のジャンル分類の限界は、より高度なシステムの必要性を強調している。
従来の機械学習技術はジャンル分類の可能性を示してきたが、音楽データの完全な複雑さを捉えられなかった。
本研究では,視覚スペクトログラムを入力として用いる新しいアプローチを提案し,Residual Neural Network(ResNet)とGated Recurrent Unit(GRU)の強みを組み合わせたハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T11:10:06Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。