論文の概要: BASS: Benchmarking Audio LMs for Musical Structure and Semantic Reasoning
- arxiv url: http://arxiv.org/abs/2602.04085v1
- Date: Tue, 03 Feb 2026 23:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.313358
- Title: BASS: Benchmarking Audio LMs for Musical Structure and Semantic Reasoning
- Title(参考訳): BASS:音楽構造とセマンティック推論のためのオーディオLMのベンチマーク
- Authors: Min Jang, Orevaoghene Ahia, Nazif Tamer, Sachin Kumar, Yulia Tsvetkov, Noah A. Smith,
- Abstract要約: 本稿では,音声言語モデルにおける音楽理解と推論の評価を目的としたBASSを紹介する。
BASSは12のタスクにまたがる2658の質問、1993年の独特な曲、138時間以上の音楽をカバーしている。
我々は14のオープンソースおよびフロンティアマルチモーダルLMを評価し、最先端モデルでさえ高いレベルの推論タスクに苦しむことを発見した。
- 参考スコア(独自算出の注目度): 74.84822135705025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music understanding is a complex task that often requires reasoning over both structural and semantic elements of audio. We introduce BASS, designed to evaluate music understanding and reasoning in audio language models across four broad categories: structural segmentation, lyric transcription, musicological analysis, and artist collaboration. BASS comprises 2658 questions spanning 12 tasks, 1993 unique songs and covering over 138 hours of music from a wide range of genres and tracks, crafted to assess musicological knowledge and reasoning in real-world scenarios. We evaluate 14 open-source and frontier multimodal LMs, finding that even state-of-the-art models struggle on higher-level reasoning tasks such as structural segmentation and artist collaboration, while performing best on lyric transcription. Our analysis reveals that current models leverage linguistic priors effectively but remain limited in reasoning over musical structure, vocal, and musicological attributes. BASS provides an evaluation framework with widespread applications in music recommendation and search and has the potential to guide the development of audio LMs.
- Abstract(参考訳): 音楽理解は複雑な作業であり、しばしばオーディオの構造的要素と意味的要素の両方を推論する必要がある。
BASSは、構造的セグメンテーション、歌詞の書き起こし、音楽学的分析、アーティストのコラボレーションの4つのカテゴリにまたがって、音声言語モデルにおける音楽理解と推論を評価するように設計されている。
BASSは12のタスクにまたがる2658の質問、1993年のユニークな歌、そして様々なジャンルやトラックから138時間以上の音楽をカバーし、実際のシナリオにおける音楽的知識と推論を評価するために作られた。
我々は14個のオープンソースおよびフロンティアマルチモーダルLMを評価し、最新のモデルでさえ、構造的セグメンテーションやアーティストのコラボレーションといった高度な推論タスクに苦しむ一方で、歌詞の書き起こしに最善を尽くしていることが分かった。
分析の結果,現在のモデルでは言語的先行概念を効果的に活用するが,音楽構造,声楽,音楽的属性の推論には限界があることが明らかとなった。
BASSは、音楽レコメンデーションや検索に広く応用された評価フレームワークを提供し、オーディオLMの開発をガイドする可能性を持っている。
関連論文リスト
- Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores [32.722200962820125]
音楽スコア理解ベンチマーク(MSU-Bench)は,スコアレベルの音楽理解を評価するための大規模人為的なベンチマークである。
MSU-Benchは、Bach、Beethoven、Chopin、Debussyなどの作品から抽出された1,800の生成的質問応答(QA)ペアで構成されている。
急激なモダリティギャップ, 脆弱なレベルワイドの成功率, マルチレベルの正確性を維持することの難しさを明らかにした。
論文 参考訳(メタデータ) (2025-11-24T06:40:38Z) - Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。
本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T11:10:57Z) - Advancing the Foundation Model for Music Understanding [9.210248657997687]
総合音楽理解のための基礎モデル MuFun を導入する。
我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。
また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-02T03:33:47Z) - Learning Musical Representations for Music Performance Question Answering [10.912207282129753]
マルチモーダル学習法は音楽演奏の基本的問題に対処できない。
私たちのメインのバックボーンは、音楽データのコンテキストにマルチモーダルインタラクションを組み込むように設計されています。
本実験は,音楽AVQAデータセットに対する最先端効果を示す。
論文 参考訳(メタデータ) (2025-02-10T17:41:57Z) - Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。
音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (2024-09-15T03:34:14Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。