論文の概要: MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.23009v1
- Date: Sat, 28 Jun 2025 20:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.666843
- Title: MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models
- Title(参考訳): MusiXQA:マルチモーダル大言語モデルにおける視覚音楽理解の促進
- Authors: Jian Chen, Wenye Ma, Penghang Liu, Wei Wang, Tengwei Song, Ming Li, Chenguang Wang, Ruiyi Zhang, Changyou Chen,
- Abstract要約: MusiXQAは、音楽シート理解におけるMLLMの評価と進歩のための、最初の包括的なデータセットである。
我々は、データセットに微調整されたMLLMであるPhi-3-MusiXを開発し、GPT法よりも大きな性能向上を実現した。
- 参考スコア(独自算出の注目度): 46.761820987130065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable visual reasoning abilities in natural images, text-rich documents, and graphic designs. However, their ability to interpret music sheets remains underexplored. To bridge this gap, we introduce MusiXQA, the first comprehensive dataset for evaluating and advancing MLLMs in music sheet understanding. MusiXQA features high-quality synthetic music sheets generated via MusiXTeX, with structured annotations covering note pitch and duration, chords, clefs, key/time signatures, and text, enabling diverse visual QA tasks. Through extensive evaluations, we reveal significant limitations of current state-of-the-art MLLMs in this domain. Beyond benchmarking, we developed Phi-3-MusiX, an MLLM fine-tuned on our dataset, achieving significant performance gains over GPT-based methods. The proposed dataset and model establish a foundation for future advances in MLLMs for music sheet understanding. Code, data, and model will be released upon acceptance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、自然画像、テキストリッチドキュメント、グラフィックデザインにおいて顕著な視覚的推論能力を実現している。
しかし、音楽シートの解釈能力はいまだ解明されていない。
このギャップを埋めるために,音楽シート理解においてMLLMを評価し,前進させる最初の包括的なデータセットであるMusiXQAを紹介する。
MusiXQAは、MusiXTeXを通じて生成された高品質な合成音楽シートを備えており、ノートピッチと持続時間、コード、クリーフ、キー/タイムシグネチャ、テキストを含む構造化アノテーションがあり、多様な視覚的QAタスクを可能にしている。
広範囲な評価を通じて,本領域における最先端MLLMの限界を明らかにした。
ベンチマークの他に、データセットに微調整されたMLLMであるPhi-3-MusiXを開発した。
提案したデータセットとモデルは,音楽シート理解のためのMLLMの今後の進歩の基盤となる。
コード、データ、モデルは受け入れ次第リリースされる。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。