論文の概要: DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning
- arxiv url: http://arxiv.org/abs/2502.12623v1
- Date: Tue, 18 Feb 2025 08:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:40.593785
- Title: DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning
- Title(参考訳): Deep Resonance: 音楽中心のマルチウェイインストラクションチューニングによるマルチモーダル音楽理解の強化
- Authors: Zhuoyuan Mao, Mengjie Zhao, Qiyu Wu, Hiromi Wakaki, Yuki Mitsufuji,
- Abstract要約: DeepResonanceは、マルチウェイアライメント音楽、テキスト、画像、ビデオデータ向けに微調整されたマルチモーダル音楽理解モデルである。
我々は、DeepResonanceが視覚的およびテキスト的音楽特徴コンテンツを統合できるように設計されたデータセットを構築する。
本モデルは6つの音楽理解課題にまたがる最先端の演奏を実現する。
- 参考スコア(独自算出の注目度): 20.072410431003142
- License:
- Abstract: Recent advancements in music large language models (LLMs) have significantly improved music understanding tasks, which involve the model's ability to analyze and interpret various musical elements. These improvements primarily focused on integrating both music and text inputs. However, the potential of incorporating additional modalities such as images, videos and textual music features to enhance music understanding remains unexplored. To bridge this gap, we propose DeepResonance, a multimodal music understanding LLM fine-tuned via multi-way instruction tuning with multi-way aligned music, text, image, and video data. To this end, we construct Music4way-MI2T, Music4way-MV2T, and Music4way-Any2T, three 4-way training and evaluation datasets designed to enable DeepResonance to integrate both visual and textual music feature content. We also introduce multi-sampled ImageBind embeddings and a pre-alignment Transformer to enhance modality fusion prior to input into text LLMs, tailoring DeepResonance for multi-way instruction tuning. Our model achieves state-of-the-art performances across six music understanding tasks, highlighting the benefits of the auxiliary modalities and the structural superiority of DeepResonance. We plan to open-source the models and the newly constructed datasets.
- Abstract(参考訳): 音楽大言語モデル(LLM)の最近の進歩は、様々な音楽要素を分析し解釈する能力を含む音楽理解タスクを大幅に改善した。
これらの改良は主に音楽とテキストのインプットの統合に焦点を当てた。
しかし,音楽理解を高めるため,画像やビデオ,テキスト音楽機能など追加のモダリティを取り入れる可能性については検討されていない。
このギャップを埋めるため,マルチウェイ・アライン・ミュージック,テキスト,画像,ビデオデータを用いたマルチウェイ・インストラクション・チューニングにより微調整されたマルチモーダル音楽理解LLMであるDeepResonanceを提案する。
この目的のために,音楽4way-MI2T,Music4way-MV2T,Music4way-Any2Tという3つの4方向トレーニングおよび評価データセットを構築した。
また,複数サンプルのImageBind埋め込みと,テキストLLMへの入力前のモダリティ融合を強化するプリアライメント・トランスフォーマを導入し,マルチウェイチューニングのためのDeepResonanceを調整した。
提案モデルは6つの音楽理解課題における最先端演奏を実現し,補助モーダルの利点とDeepResonanceの構造的優位性を強調した。
モデルと新たに構築されたデータセットをオープンソース化する予定です。
関連論文リスト
- Learning Musical Representations for Music Performance Question Answering [10.912207282129753]
マルチモーダル学習法は音楽演奏の基本的問題に対処できない。
私たちのメインのバックボーンは、音楽データのコンテキストにマルチモーダルインタラクションを組み込むように設計されています。
本実験は,音楽AVQAデータセットに対する最先端効果を示す。
論文 参考訳(メタデータ) (2025-02-10T17:41:57Z) - Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation [21.359220595049788]
マルチモーダル音楽生成は、テキスト、ビデオ、画像を含む様々な入力モダリティから音楽を生成することを目的としている。
既存の方法は、マルチモーダル融合に共通の埋め込み空間を用いる。
本稿では,テキストと音楽の明示的なブリッジを多モードアライメントに用いることで,これらの問題に対処する。
論文 参考訳(メタデータ) (2024-12-12T16:33:21Z) - A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。
音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (2024-09-15T03:34:14Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Music Understanding LLaMA: Advancing Text-to-Music Generation with
Question Answering and Captioning [37.76488341368786]
テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットが不足しているため、大きな障害に直面している。
音楽関連質問に答え、音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。
本稿では,既存の音声キャプションデータセットから質問応答ペアを生成する手法を提案し,MusicQAデータセットを紹介する。
論文 参考訳(メタデータ) (2023-08-22T08:43:33Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。