Fugu-MT 論文翻訳(概要): OpenMU: Your Swiss Army Knife for Music Understanding

論文の概要: OpenMU: Your Swiss Army Knife for Music Understanding

arxiv url: http://arxiv.org/abs/2410.15573v2
Date: Wed, 23 Oct 2024 06:21:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.196341
Title: OpenMU: Your Swiss Army Knife for Music Understanding
Title（参考訳）: OpenMU: 音楽理解のためのスイス軍ナイフ
Authors: Mengjie Zhao, Zhi Zhong, Zhuoyuan Mao, Shiqi Yang, Wei-Hsiang Liao, Shusuke Takahashi, Hiromi Wakaki, Yuki Mitsufuji,
Abstract要約: 音楽理解のためのマルチモーダル言語モデルをトレーニングするためのベンチマークスイートであるOpenMU-Benchを紹介する。 OpenMU-Benchは、歌詞理解と音楽ツールの使用によって、音楽理解の範囲を広げる。
参考スコア（独自算出の注目度）: 27.19376210913002
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present OpenMU-Bench, a large-scale benchmark suite for addressing the data scarcity issue in training multimodal language models to understand music. To construct OpenMU-Bench, we leveraged existing datasets and bootstrapped new annotations. OpenMU-Bench also broadens the scope of music understanding by including lyrics understanding and music tool usage. Using OpenMU-Bench, we trained our music understanding model, OpenMU, with extensive ablations, demonstrating that OpenMU outperforms baseline models such as MU-Llama. Both OpenMU and OpenMU-Bench are open-sourced to facilitate future research in music understanding and to enhance creative music production efficiency.
Abstract（参考訳）: 音楽理解のためのマルチモーダル言語モデルのトレーニングにおいて,データ不足問題に対処するための大規模ベンチマークスイートであるOpenMU-Benchを提案する。 OpenMU-Benchを構築するために、既存のデータセットを活用し、新しいアノテーションをブートストラップしました。 OpenMU-Benchはまた、歌詞理解と音楽ツールの使用によって、音楽理解の範囲を広げている。 OpenMU-Benchを用いて音楽理解モデルOpenMUの学習を行い,オープンMUがMU-Llamaなどのベースラインモデルより優れていることを示す。 OpenMUとOpenMU-Benchはどちらも、音楽理解の今後の研究を促進し、クリエイティブな音楽制作効率を高めるためにオープンソース化されている。

関連論文リスト

DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning [20.072410431003142]
DeepResonanceは、マルチウェイアライメント音楽、テキスト、画像、ビデオデータ向けに微調整されたマルチモーダル音楽理解モデルである。我々は、DeepResonanceが視覚的およびテキスト的音楽特徴コンテンツを統合できるように設計されたデータセットを構築する。本モデルは6つの音楽理解課題にまたがる最先端の演奏を実現する。
論文参考訳（メタデータ） (2025-02-18T08:09:42Z)
Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation [21.359220595049788]
マルチモーダル音楽生成は、テキスト、ビデオ、画像を含む様々な入力モダリティから音楽を生成することを目的としている。既存の方法は、マルチモーダル融合に共通の埋め込み空間を用いる。本稿では,テキストと音楽の明示的なブリッジを多モードアライメントに用いることで,これらの問題に対処する。
論文参考訳（メタデータ） (2024-12-12T16:33:21Z)
Local deployment of large-scale music AI models on commodity hardware [14.748510630479712]
MIDInfiniteは,コモディティハードウェア上で大規模生成AIモデルを用いて,シンボリック音楽を生成することができるWebアプリケーションである。概念実証として,ブラウザ上で多機能MIDIの無限ストリームを生成するWebアプリケーションを構築した。コモディティハードウェア(M3 Macbook Pro)では、デモでは51ノートを毎秒生成することができ、72.9%の世代でリアルタイム再生よりも高速です。
論文参考訳（メタデータ） (2024-11-14T17:49:27Z)
OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。 OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文参考訳（メタデータ） (2024-10-12T23:42:16Z)
Recent Advances of Multimodal Continual Learning: A Comprehensive Survey [64.82070119713207]
本研究は,マルチモーダル連続学習法に関する総合的な調査である。既存のMMCLメソッドは,正規化ベース,アーキテクチャベース,リプレイベース,プロンプトベースという4つのカテゴリに分類される。今後の研究・開発への道筋について論じる。
論文参考訳（メタデータ） (2024-10-07T13:10:40Z)
Adversarial-MidiBERT: Symbolic Music Understanding Model Based on Unbias Pre-training and Mask Fine-tuning [2.61072980439312]
変換器によるバイバーサ表現に基づく記号的音楽理解モデルAdrial-MidiBERTを提案する。逆学習に基づく非バイアス付き事前学習手法を導入し、トレーニング中にバイアスにつながるトークンの参加を最小限に抑えるとともに、事前学習と微調整のデータギャップを狭めるマスクファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-11T08:54:38Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文参考訳（メタデータ） (2024-02-25T17:19:41Z)
Music Representing Corpus Virtual: An Open Sourced Library for Explorative Music Generation, Sound Design, and Instrument Creation with Artificial Intelligence and Machine Learning [0.0]
Music Representing Corpus Virtual (MRCV) は、音楽生成、サウンドデザイン、仮想機器作成(MGSDIC)における人工知能(AI)と機械学習(ML)の能力を探求するオープンソースソフトウェアスイートである。 MRCVの主な目的は、創造性を促進することであり、ユーザーはニューラルネットワークをトレーニングするための入力データセットをカスタマイズし、ニューラルネットワーク毎にさまざまなオプションを提供することができる。ソフトウェアはオープンソースであり、ユーザーは開発に貢献でき、コミュニティは他のユーザの洞察や経験から一括して恩恵を受けることができる。
論文参考訳（メタデータ） (2023-05-24T09:36:04Z)
ComMU: Dataset for Combinatorial Music Generation [20.762884001498627]
Combinatorの音楽生成は、音楽の短いサンプルと豊かな音楽メタデータを生成し、それらを組み合わせて完全な音楽を生成する。 ComMUは、短い音楽サンプルとそれに対応する12の音楽メタデータからなる最初のシンボリック音楽データセットである。以上の結果から,トラックロールやコード品質などのユニークなメタデータが自動合成の能力を向上させることが示唆された。
論文参考訳（メタデータ） (2022-11-17T07:25:09Z)
Deep Learning for MIR Tutorial [68.8204255655161]
このチュートリアルは、広範囲にわたるMIR関連ディープラーニングアプローチをカバーしている。 textbfConvolutional Neural Networksは現在、ディープラーニングベースのオーディオ検索のためのデファクトスタンダードである。 textbfSiamese Networksは音楽類似性検索に特有な音声表現と距離関数の学習に有効であることが示されている。
論文参考訳（メタデータ） (2020-01-15T12:23:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。