論文の概要: Perceptual Musical Features for Interpretable Audio Tagging
- arxiv url: http://arxiv.org/abs/2312.11234v3
- Date: Fri, 23 Feb 2024 13:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:38:35.984734
- Title: Perceptual Musical Features for Interpretable Audio Tagging
- Title(参考訳): 解釈可能なオーディオタギングのための知覚音楽的特徴
- Authors: Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos and Giorgos
Stamou
- Abstract要約: 本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 2.1730712607705485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the age of music streaming platforms, the task of automatically tagging
music audio has garnered significant attention, driving researchers to devise
methods aimed at enhancing performance metrics on standard datasets. Most
recent approaches rely on deep neural networks, which, despite their impressive
performance, possess opacity, making it challenging to elucidate their output
for a given input. While the issue of interpretability has been emphasized in
other fields like medicine, it has not received attention in music-related
tasks. In this study, we explored the relevance of interpretability in the
context of automatic music tagging. We constructed a workflow that incorporates
three different information extraction techniques: a) leveraging symbolic
knowledge, b) utilizing auxiliary deep neural networks, and c) employing signal
processing to extract perceptual features from audio files. These features were
subsequently used to train an interpretable machine-learning model for tag
prediction. We conducted experiments on two datasets, namely the MTG-Jamendo
dataset and the GTZAN dataset. Our method surpassed the performance of baseline
models in both tasks and, in certain instances, demonstrated competitiveness
with the current state-of-the-art. We conclude that there are use cases where
the deterioration in performance is outweighed by the value of
interpretability.
- Abstract(参考訳): 音楽ストリーミングプラットフォームの時代において、音楽オーディオを自動的にタグ付けするタスクは大きな注目を集め、研究者は標準データセットのパフォーマンス指標を向上する手法を考案した。
最近のアプローチのほとんどがディープニューラルネットワークに依存しており、そのパフォーマンスは素晴らしいが、不透明性があり、入力に対する出力の解明が困難である。
解釈の問題は医学など他の分野でも強調されているが、音楽関連の課題には注目されていない。
本研究では,音楽の自動タグ付けにおける解釈可能性の関連について検討した。
3つの異なる情報抽出技術を組み込んだワークフローを構築した。
a) 象徴的知識の活用
ロ 補助深部神経回路網の利用、及び
c) 音声ファイルから知覚的特徴を抽出するために信号処理を利用する。
これらの特徴はその後、タグ予測のための解釈可能な機械学習モデルをトレーニングするために使用された。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
提案手法は,両タスクにおけるベースラインモデルの性能を上回っており,その場合,現状との競合性を示した。
性能劣化が解釈可能性の値によって上回っているユースケースが存在すると結論付けている。
関連論文リスト
- Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - Detecting Generic Music Features with Single Layer Feedforward Network
using Unsupervised Hebbian Computation [3.8707695363745223]
著者らは、人気のあるオープンソース音楽コーパスから、そのような特徴に関する情報を抽出する。
彼らは同じデータセットを使用して、一層ニューラルネットワークに教師なしのヘビアン学習技術を適用する。
教師なしトレーニングアルゴリズムは、提案したニューラルネットワークを強化し、音楽特徴の検出を成功させるために90.36%の精度を達成する。
論文 参考訳(メタデータ) (2020-08-31T13:57:31Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。