論文の概要: Do Foundational Audio Encoders Understand Music Structure?
- arxiv url: http://arxiv.org/abs/2512.17209v1
- Date: Fri, 19 Dec 2025 03:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.23784
- Title: Do Foundational Audio Encoders Understand Music Structure?
- Title(参考訳): 基本オーディオエンコーダは音楽構造を理解するか?
- Authors: Keisuke Toyama, Zhi Zhong, Akira Takahashi, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: 本研究では,11種類の基礎的オーディオエンコーダ(FAE)の実験を行い,これらの要因が音楽構造解析(MSA)の性能に与える影響について検討する。
この結果から,音楽データにマスク付き言語モデルを用いた自己教師型学習を用いたFAEは,特にMSAに有効であることが示唆された。
- 参考スコア(独自算出の注目度): 32.88009059868699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In music information retrieval (MIR) research, the use of pretrained foundational audio encoders (FAEs) has recently become a trend. FAEs pretrained on large amounts of music and audio data have been shown to improve performance on MIR tasks such as music tagging and automatic music transcription. However, their use for music structure analysis (MSA) remains underexplored. Although many open-source FAE models are available, only a small subset has been examined for MSA, and the impact of factors such as learning methods, training data, and model context length on MSA performance remains unclear. In this study, we conduct comprehensive experiments on 11 types of FAEs to investigate how these factors affect MSA performance. Our results demonstrate that FAEs using selfsupervised learning with masked language modeling on music data are particularly effective for MSA. These findings pave the way for future research in MSA.
- Abstract(参考訳): 近年,音楽情報検索(MIR)研究において,事前学習された基礎的オーディオエンコーダ(FAE)の使用がトレンドとなっている。
大量の音楽や音声データに基づいて事前訓練されたFAEは、音楽タグ付けや自動音楽書き起こしなどのMIRタスクのパフォーマンスを向上させることが示されている。
しかし,音楽構造解析(MSA)への利用はいまだ検討されていない。
多くのオープンソースFAEモデルが利用可能であるが、MSAのサブセットのみが検討されており、学習方法、トレーニングデータ、モデルコンテキスト長などの要因がMSAのパフォーマンスに与える影響は未定である。
本研究では,11種類のFAEの総合的な実験を行い,これらの要因がMSA性能に与える影響について検討した。
この結果から,音楽データにマスク付き言語モデルを用いた自己教師型学習を用いたFAEは,特にMSAに有効であることが示唆された。
これらの知見は将来のMSA研究の道を開くものである。
関連論文リスト
- Sound and Music Biases in Deep Music Transcription Models: A Systematic Analysis [6.87202900256721]
この研究は音楽の次元、特にジャンル、ダイナミクス、ポリフォニーのレベルの変化について研究している。
我々はMDSコーパスを導入し、Genre, (2) Random, (3) MAEtestの3つの異なるサブセットからなる。
我々は,従来の情報検索と音楽的インフォームドのパフォーマンス指標を用いて,MDSコーパス上での最先端ATTシステムの性能評価を行った。
論文 参考訳(メタデータ) (2025-12-16T17:12:26Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。
以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文 参考訳(メタデータ) (2025-06-14T00:18:44Z) - A Benchmark and Robustness Study of In-Context-Learning with Large Language Models in Music Entity Detection [0.046040036610482664]
In-context Learning (ICL)を用いた最近の言語モデルを用いて、ユーザ生成メタデータの新しいデータセットを提供し、ベンチマークと研究を行う。
以上の結果から,ICL設定におけるLCMはSLMよりも高い性能を示した。
論文 参考訳(メタデータ) (2024-12-16T15:11:03Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。