論文の概要: ArtistMus: A Globally Diverse, Artist-Centric Benchmark for Retrieval-Augmented Music Question Answering
- arxiv url: http://arxiv.org/abs/2512.05430v1
- Date: Fri, 05 Dec 2025 05:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.906669
- Title: ArtistMus: A Globally Diverse, Artist-Centric Benchmark for Retrieval-Augmented Music Question Answering
- Title(参考訳): ArtistMus: 検索可能な楽曲質問回答のための、グローバルに多彩なアーティスト中心のベンチマーク
- Authors: Daeyong Kwon, SeungHeon Doh, Juhan Nam,
- Abstract要約: MusWikiDBは、144Kの音楽関連ウィキペディアページから3.2Mパスのベクトルデータベースである。
ArtistMusは、ジャンル、デビュー年、トピックといったメタデータを持つ500の多様なアーティストに関する1000の質問のベンチマークである。
- 参考スコア(独自算出の注目度): 19.176502073980636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have transformed open-domain question answering, yet their effectiveness in music-related reasoning remains limited due to sparse music knowledge in pretraining data. While music information retrieval and computational musicology have explored structured and multimodal understanding, few resources support factual and contextual music question answering (MQA) grounded in artist metadata or historical context. We introduce MusWikiDB, a vector database of 3.2M passages from 144K music-related Wikipedia pages, and ArtistMus, a benchmark of 1,000 questions on 500 diverse artists with metadata such as genre, debut year, and topic. These resources enable systematic evaluation of retrieval-augmented generation (RAG) for MQA. Experiments show that RAG markedly improves factual accuracy; open-source models gain up to +56.8 percentage points (for example, Qwen3 8B improves from 35.0 to 91.8), approaching proprietary model performance. RAG-style fine-tuning further boosts both factual recall and contextual reasoning, improving results on both in-domain and out-of-domain benchmarks. MusWikiDB also yields approximately 6 percentage points higher accuracy and 40% faster retrieval than a general-purpose Wikipedia corpus. We release MusWikiDB and ArtistMus to advance research in music information retrieval and domain-specific question answering, establishing a foundation for retrieval-augmented reasoning in culturally rich domains such as music.
- Abstract(参考訳): 大規模言語モデル (LLM) の最近の進歩は, オープンドメインの質問応答に変化をもたらしたが, 事前学習データにおける音楽知識の不足により, 音楽関連推論の有効性は制限されている。
音楽情報検索と計算音楽学は構造化されたマルチモーダルな理解を探求してきたが、アーティストのメタデータや歴史的文脈に基づく実・文脈音楽質問応答(MQA)を支援するリソースはほとんどない。
MusWikiDBは、144Kの音楽関連ウィキペディアページから3.2Mパスのベクターデータベースであり、ArtistMusは、ジャンル、デビュー年、トピックなどのメタデータを持つ500人の多様なアーティストに対する1000の質問のベンチマークである。
これらのリソースは、MQAの検索拡張生成(RAG)の体系的評価を可能にする。
例えば、Qwen3 8Bは35.0から91.8に改善され、プロプライエタリなモデル性能に近づいた。
RAGスタイルの微調整により、ファクトリコールとコンテキスト推論の両方が向上し、ドメイン内ベンチマークとアウトオブドメインベンチマークの両方の結果が改善される。
MusWikiDBは、汎用のウィキペディアコーパスよりも精度が約6ポイント高く、検索が40%高速である。
我々はMusWikiDBとArtistMusをリリースし、音楽情報検索とドメイン固有の質問応答の研究を進め、音楽などの文化的に豊かな領域における検索強化推論の基礎を確立した。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Factual and Musical Evaluation Metrics for Music Language Models [5.124350492915739]
音楽言語モデル(Music LM)は、マルチモーダル表現を利用して、音楽録音に関する自然言語クエリに答える。
Music LMは改善されていると報じられているが、現在の評価ではその答えが正しいかどうかを把握できない。
本研究では,(1)音楽領域に適応した音楽LMのより汎用的な評価基準を提案し,(2)音楽LMの応答の正しさを定量的に評価するための実測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T18:08:26Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - Music Era Recognition Using Supervised Contrastive Learning and Artist Information [11.126020721501956]
音楽時代情報は、プレイリストの生成とレコメンデーションにとって重要な機能である。
音声から年齢を予測するために,音声に基づくモデルを開発した。
アーティスト情報が入手可能な場合には,マルチモーダル入力を受信するための音声モデルを拡張し,マルチモーダルコントラスト学習(MMC)と呼ばれるフレームワークを開発し,トレーニングを強化する。
論文 参考訳(メタデータ) (2024-07-07T13:43:55Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。