論文の概要: MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
- arxiv url: http://arxiv.org/abs/2408.01337v1
- Date: Fri, 2 Aug 2024 15:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 12:58:15.419825
- Title: MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
- Title(参考訳): MuChoMusic:マルチモーダルオーディオ言語モデルによる音楽理解の評価
- Authors: Benno Weck, Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas, Dmitry Bogdanov,
- Abstract要約: MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
- 参考スコア(独自算出の注目度): 11.834712543531756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal models that jointly process audio and language hold great promise in audio understanding and are increasingly being adopted in the music domain. By allowing users to query via text and obtain information about a given audio input, these models have the potential to enable a variety of music understanding tasks via language-based interfaces. However, their evaluation poses considerable challenges, and it remains unclear how to effectively assess their ability to correctly interpret music-related inputs with current methods. Motivated by this, we introduce MuChoMusic, a benchmark for evaluating music understanding in multimodal language models focused on audio. MuChoMusic comprises 1,187 multiple-choice questions, all validated by human annotators, on 644 music tracks sourced from two publicly available music datasets, and covering a wide variety of genres. Questions in the benchmark are crafted to assess knowledge and reasoning abilities across several dimensions that cover fundamental musical concepts and their relation to cultural and functional contexts. Through the holistic analysis afforded by the benchmark, we evaluate five open-source models and identify several pitfalls, including an over-reliance on the language modality, pointing to a need for better multimodal integration. Data and code are open-sourced.
- Abstract(参考訳): 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可能性を秘めており、音楽分野においてますます採用されている。
ユーザがテキストで検索し、与えられた音声入力に関する情報を入手できるようにすることで、これらのモデルは言語ベースのインタフェースを通じて様々な音楽理解タスクを可能にする可能性がある。
しかし,その評価にはかなりの課題があり,音楽関連入力を現在の手法で正しく解釈する能力をどのように効果的に評価するかは定かではない。
そこで本研究では,音声に着目したマルチモーダル言語モデルにおける音楽理解のベンチマークであるMuChoMusicを紹介する。
MuChoMusicは1,187の質問から成り、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットから得られた644曲の楽曲に収録され、様々なジャンルをカバーする。
このベンチマークの質問は、基本的な音楽概念と文化的・機能的文脈との関係を網羅する知識と推論能力を評価するために作成されている。
ベンチマークで得られた全体分析を通じて、5つのオープンソースモデルを評価し、言語モダリティへの過度な依存を含むいくつかの落とし穴を特定し、より優れたマルチモーダル統合の必要性を示している。
データとコードはオープンソースである。
関連論文リスト
- Learning Musical Representations for Music Performance Question Answering [10.912207282129753]
マルチモーダル学習法は音楽演奏の基本的問題に対処できない。
私たちのメインのバックボーンは、音楽データのコンテキストにマルチモーダルインタラクションを組み込むように設計されています。
本実験は,音楽AVQAデータセットに対する最先端効果を示す。
論文 参考訳(メタデータ) (2025-02-10T17:41:57Z) - CLaMP 2: Multimodal Music Information Retrieval Across 101 Languages Using Large Language Models [51.03510073676228]
CLaMP 2は、音楽情報検索用の101言語に対応するシステムである。
大規模言語モデルを活用することで,大規模に洗練され一貫した多言語記述が得られる。
CLaMP 2は、多言語セマンティックサーチとモーダル間の音楽分類において、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-17T06:43:54Z) - A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。
音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (2024-09-15T03:34:14Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music [21.380568107727207]
中国語で書かれた最初のオープンソース音楽記述ベンチマークであるMuChinを紹介する。
MuChinは、音楽の理解と記述において、マルチモーダルな大規模言語モデルの性能を評価するように設計されている。
ベンチマークに関連するすべてのデータは、スコアコードと詳細な付録とともに、オープンソース化されている。
論文 参考訳(メタデータ) (2024-02-15T10:55:01Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - LLark: A Multimodal Instruction-Following Language Model for Music [7.7033394687966865]
音楽にはユニークで複雑な構造があり、専門家と既存のAIシステムの両方が理解することが難しい。
音韻理解のための命令調整型マルチモーダルモデルであるLLarkを提案する。
論文 参考訳(メタデータ) (2023-10-11T03:12:47Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。