論文の概要: Semantic-Aware Interpretable Multimodal Music Auto-Tagging
- arxiv url: http://arxiv.org/abs/2505.17233v2
- Date: Mon, 26 May 2025 09:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.650795
- Title: Semantic-Aware Interpretable Multimodal Music Auto-Tagging
- Title(参考訳): セマンティック・アウェア・インタープリタブル・マルチモーダル・ミュージック・オートタグ
- Authors: Andreas Patakis, Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos, Giorgos Stamou,
- Abstract要約: 本稿では,音楽に有意義なマルチモーダル特徴群を利用した自動タグ付けのための解釈可能なフレームワークを提案する。
提案手法は,意思決定プロセスのより深い理解を提供しながら,競争力のあるタグ付け性能を実現する。
- 参考スコア(独自算出の注目度): 1.8541450825478398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music auto-tagging is essential for organizing and discovering music in extensive digital libraries. While foundation models achieve exceptional performance in this domain, their outputs often lack interpretability, limiting trust and usability for researchers and end-users alike. In this work, we present an interpretable framework for music auto-tagging that leverages groups of musically meaningful multimodal features, derived from signal processing, deep learning, ontology engineering, and natural language processing. To enhance interpretability, we cluster features semantically and employ an expectation maximization algorithm, assigning distinct weights to each group based on its contribution to the tagging process. Our method achieves competitive tagging performance while offering a deeper understanding of the decision-making process, paving the way for more transparent and user-centric music tagging systems.
- Abstract(参考訳): 音楽の自動タグ付けは、広範なデジタル図書館の音楽の整理と発見に不可欠である。
基礎モデルは、この領域で例外的なパフォーマンスを達成するが、その出力は、しばしば解釈可能性に欠け、研究者やエンドユーザの信頼とユーザビリティを制限している。
本研究では,信号処理,深層学習,オントロジー工学,自然言語処理など,音楽的に有意義なマルチモーダル特徴群を活用した音楽自動タグ作成のための解釈可能なフレームワークを提案する。
解釈可能性を高めるために,我々はセマンティックな特徴をクラスタリングし,タグ付けプロセスへの貢献に基づいて,各グループに異なる重みを割り当てる期待最大化アルゴリズムを用いた。
提案手法は,より透明でユーザ中心の音楽タギングシステムを実現する方法として,意思決定プロセスのより深い理解を提供しながら,競争力のあるタギング性能を実現する。
関連論文リスト
- Unifying Multitrack Music Arrangement via Reconstruction Fine-Tuning and Efficient Tokenization [10.714947060480426]
本稿では,無条件および条件付きシンボル音楽生成のための効率的なマルチトラック音楽トークンについて紹介する。
事前学習された音楽用LMのシーケンス・ツー・シーケンス再構成の微調整目的は、タスク固有のニーズとコヒーレンス制約とのバランスをとる。
提案手法は,目標と知覚品質の両面において,タスク固有モデルを超え,バンドアレンジメント,ピアノアレンジメント,ドラムアレンジメントの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-08-27T16:18:51Z) - Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。
シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。
ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文 参考訳(メタデータ) (2024-08-01T11:23:42Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z) - MusicAgent: An AI Agent for Music Understanding and Generation with
Large Language Models [54.55063772090821]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。
このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文 参考訳(メタデータ) (2023-10-18T13:31:10Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。