論文の概要: Joint Music and Language Attention Models for Zero-shot Music Tagging
- arxiv url: http://arxiv.org/abs/2310.10159v1
- Date: Mon, 16 Oct 2023 08:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:49:26.073805
- Title: Joint Music and Language Attention Models for Zero-shot Music Tagging
- Title(参考訳): ゼロショット音楽タギングのためのジョイント音楽と言語注意モデル
- Authors: Xingjian Du, Zhesong Yu, Jiaju Lin, Bilei Zhu, Qiuqiang Kong
- Abstract要約: 共同音楽・言語アテンションモデルによりモデル化されたゼロショット音楽タギングシステムを提案する。
提案するJMLAシステムでは,GTZANデータセット上でゼロショット音声タグ付け精度が64.82%である。
- 参考スコア(独自算出の注目度): 18.608174541866322
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Music tagging is a task to predict the tags of music recordings. However,
previous music tagging research primarily focuses on close-set music tagging
tasks which can not be generalized to new tags. In this work, we propose a
zero-shot music tagging system modeled by a joint music and language attention
(JMLA) model to address the open-set music tagging problem. The JMLA model
consists of an audio encoder modeled by a pretrained masked autoencoder and a
decoder modeled by a Falcon7B. We introduce preceiver resampler to convert
arbitrary length audio into fixed length embeddings. We introduce dense
attention connections between encoder and decoder layers to improve the
information flow between the encoder and decoder layers. We collect a
large-scale music and description dataset from the internet. We propose to use
ChatGPT to convert the raw descriptions into formalized and diverse
descriptions to train the JMLA models. Our proposed JMLA system achieves a
zero-shot audio tagging accuracy of $ 64.82\% $ on the GTZAN dataset,
outperforming previous zero-shot systems and achieves comparable results to
previous systems on the FMA and the MagnaTagATune datasets.
- Abstract(参考訳): 音楽のタギングは、音楽録音のタグを予測するタスクです。
しかし,従来の音楽タギング研究は主に,新しいタグに一般化できないクローズセットな音楽タギングタスクに焦点を当てていた。
本研究では,JMLAモデルを用いたゼロショット音楽タギングシステムを提案し,オープンセット音楽タギング問題に対処する。
JMLAモデルは、事前訓練されたマスク付きオートエンコーダでモデル化されたオーディオエンコーダと、Falcon7Bでモデル化されたデコーダで構成される。
任意の長さの音声を固定長埋め込みに変換するために,preceiver resamplerを導入する。
エンコーダ層とデコーダ層間の密着した注意関係を導入し,エンコーダ層とデコーダ層間の情報フローを改善する。
インターネットから大規模な音楽と説明データセットを収集する。
本稿では、ChatGPTを用いて生の記述を形式化された多種多様な記述に変換し、JMLAモデルをトレーニングすることを提案する。
提案したJMLAシステムは,GTZANデータセット上で64.82 %のゼロショット音声タグ付け精度を実現し,従来のゼロショットシステムよりも優れており,FMAおよびMagnaTagATuneデータセット上の従来のシステムと同等の結果が得られる。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Practical End-to-End Optical Music Recognition for Pianoform Music [3.69298824193862]
私たちはLinearized MusicXMLと呼ばれるシーケンシャルなフォーマットを定義します。
我々は,OpenScore Lieder corpus に基づいて MusicXML をベースとしたベンチマーク型セット OMR を作成する。
データセットのベースラインとして機能し、TEDnメトリックを使用してモデルを評価するために、エンドツーエンドモデルをトレーニングし、微調整する。
論文 参考訳(メタデータ) (2024-03-20T17:26:22Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Differential Music: Automated Music Generation Using LSTM Networks with
Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。
絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。
実験結果は、音楽やトーンを聴くと約束を示す。
論文 参考訳(メタデータ) (2021-08-23T23:51:08Z) - Codified audio language modeling learns useful representations for music
information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-12T18:28:50Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。