論文の概要: OpenMU: Your Swiss Army Knife for Music Understanding
- arxiv url: http://arxiv.org/abs/2410.15573v3
- Date: Wed, 27 Nov 2024 05:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:15.118745
- Title: OpenMU: Your Swiss Army Knife for Music Understanding
- Title(参考訳): OpenMU: 音楽理解のためのスイス軍ナイフ
- Authors: Mengjie Zhao, Zhi Zhong, Zhuoyuan Mao, Shiqi Yang, Wei-Hsiang Liao, Shusuke Takahashi, Hiromi Wakaki, Yuki Mitsufuji,
- Abstract要約: 音楽理解のためのマルチモーダル言語モデルをトレーニングするためのベンチマークスイートであるOpenMU-Benchを紹介する。
OpenMU-Benchは、歌詞理解と音楽ツールの使用によって、音楽理解の範囲を広げる。
- 参考スコア(独自算出の注目度): 27.19376210913002
- License:
- Abstract: We present OpenMU-Bench, a large-scale benchmark suite for addressing the data scarcity issue in training multimodal language models to understand music. To construct OpenMU-Bench, we leveraged existing datasets and bootstrapped new annotations. OpenMU-Bench also broadens the scope of music understanding by including lyrics understanding and music tool usage. Using OpenMU-Bench, we trained our music understanding model, OpenMU, with extensive ablations, demonstrating that OpenMU outperforms baseline models such as MU-Llama. Both OpenMU and OpenMU-Bench are open-sourced to facilitate future research in music understanding and to enhance creative music production efficiency.
- Abstract(参考訳): 音楽理解のためのマルチモーダル言語モデルのトレーニングにおいて,データ不足問題に対処するための大規模ベンチマークスイートであるOpenMU-Benchを提案する。
OpenMU-Benchを構築するために、既存のデータセットを活用し、新しいアノテーションをブートストラップしました。
OpenMU-Benchはまた、歌詞理解と音楽ツールの使用によって、音楽理解の範囲を広げている。
OpenMU-Benchを用いて音楽理解モデルOpenMUの学習を行い,オープンMUがMU-Llamaなどのベースラインモデルより優れていることを示す。
OpenMUとOpenMU-Benchはどちらも、音楽理解の今後の研究を促進し、クリエイティブな音楽制作効率を高めるためにオープンソース化されている。
関連論文リスト
- DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning [20.072410431003142]
DeepResonanceは、マルチウェイアライメント音楽、テキスト、画像、ビデオデータ向けに微調整されたマルチモーダル音楽理解モデルである。
我々は、DeepResonanceが視覚的およびテキスト的音楽特徴コンテンツを統合できるように設計されたデータセットを構築する。
本モデルは6つの音楽理解課題にまたがる最先端の演奏を実現する。
論文 参考訳(メタデータ) (2025-02-18T08:09:42Z) - Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation [21.359220595049788]
マルチモーダル音楽生成は、テキスト、ビデオ、画像を含む様々な入力モダリティから音楽を生成することを目的としている。
既存の方法は、マルチモーダル融合に共通の埋め込み空間を用いる。
本稿では,テキストと音楽の明示的なブリッジを多モードアライメントに用いることで,これらの問題に対処する。
論文 参考訳(メタデータ) (2024-12-12T16:33:21Z) - OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文 参考訳(メタデータ) (2024-10-12T23:42:16Z) - Recent Advances of Multimodal Continual Learning: A Comprehensive Survey [64.82070119713207]
本研究は,マルチモーダル連続学習法に関する総合的な調査である。
既存のMMCLメソッドは,正規化ベース,アーキテクチャベース,リプレイベース,プロンプトベースという4つのカテゴリに分類される。
今後の研究・開発への道筋について論じる。
論文 参考訳(メタデータ) (2024-10-07T13:10:40Z) - Let Network Decide What to Learn: Symbolic Music Understanding Model Based on Large-scale Adversarial Pre-training [2.61072980439312]
マスク言語モデル(MLM)は、自然言語処理(NLP)における人種差別差別のようなバイアス問題を導入するかもしれない
本稿では,ランダムマスキングではなく,マスカネットワークを介してマスクすべきものを適応的に決定する,SMU用Adversarial-MidiBERTを提案する。
提案手法は4つのSMUタスクにまたがって評価し,全てのケースにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-11T08:54:38Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - Music Representing Corpus Virtual: An Open Sourced Library for
Explorative Music Generation, Sound Design, and Instrument Creation with
Artificial Intelligence and Machine Learning [0.0]
Music Representing Corpus Virtual (MRCV) は、音楽生成、サウンドデザイン、仮想機器作成(MGSDIC)における人工知能(AI)と機械学習(ML)の能力を探求するオープンソースソフトウェアスイートである。
MRCVの主な目的は、創造性を促進することであり、ユーザーはニューラルネットワークをトレーニングするための入力データセットをカスタマイズし、ニューラルネットワーク毎にさまざまなオプションを提供することができる。
ソフトウェアはオープンソースであり、ユーザーは開発に貢献でき、コミュニティは他のユーザの洞察や経験から一括して恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-05-24T09:36:04Z) - Deep Learning for MIR Tutorial [68.8204255655161]
このチュートリアルは、広範囲にわたるMIR関連ディープラーニングアプローチをカバーしている。
textbfConvolutional Neural Networksは現在、ディープラーニングベースのオーディオ検索のためのデファクトスタンダードである。
textbfSiamese Networksは音楽類似性検索に特有な音声表現と距離関数の学習に有効であることが示されている。
論文 参考訳(メタデータ) (2020-01-15T12:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。