Fugu-MT 論文翻訳(概要): MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music

論文の概要: MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music

arxiv url: http://arxiv.org/abs/2402.09871v1
Date: Thu, 15 Feb 2024 10:55:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 16:03:52.097436
Title: MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music
Title（参考訳）: MuChin: 音楽分野における言語モデル評価のための中国語の口語記述ベンチマーク
Authors: Zihao Wang, Shuyu Li, Tao Zhang, Qi Wang, Pengfei Yu, Jinyang Luo, Yan Liu, Ming Xi, Kejun Zhang
Abstract要約: MuChinは中国語で書かれた最初のオープンソースの音楽記述ベンチマークである。音楽の理解と記述において,マルチモーダル大規模言語モデルの性能を評価するように設計されている。ベンチマークに関連するすべてのデータとスコアリングのコードがオープンソース化された。
参考スコア（独自算出の注目度）: 22.184603245051843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapidly evolving multimodal Large Language Models (LLMs) urgently require new benchmarks to uniformly evaluate their performance on understanding and textually describing music. However, due to semantic gaps between Music Information Retrieval (MIR) algorithms and human understanding, discrepancies between professionals and the public, and low precision of annotations, existing music description datasets cannot serve as benchmarks. To this end, we present MuChin, the first open-source music description benchmark in Chinese colloquial language, designed to evaluate the performance of multimodal LLMs in understanding and describing music. We established the Caichong Music Annotation Platform (CaiMAP) that employs an innovative multi-person, multi-stage assurance method, and recruited both amateurs and professionals to ensure the precision of annotations and alignment with popular semantics. Utilizing this method, we built a dataset with multi-dimensional, high-precision music annotations, the Caichong Music Dataset (CaiMD), and carefully selected 1,000 high-quality entries to serve as the test set for MuChin. Based on MuChin, we analyzed the discrepancies between professionals and amateurs in terms of music description, and empirically demonstrated the effectiveness of annotated data for fine-tuning LLMs. Ultimately, we employed MuChin to evaluate existing music understanding models on their ability to provide colloquial descriptions of music. All data related to the benchmark and the code for scoring have been open-sourced.
Abstract（参考訳）: 急速に発展するマルチモーダル大規模言語モデル(llm)は、音楽の理解とテキスト記述に関するパフォーマンスを統一的に評価するための新しいベンチマークを緊急に要求する。しかし、音楽情報検索(MIR)アルゴリズムと人間の理解、専門家と一般人の相違、注釈の精度の低さにより、既存の音楽記述データセットはベンチマークとして機能することができない。そこで本研究では,マルチモーダルllmの性能評価を目的とし,中国語言語で初のオープンソース音楽記述ベンチマークである muchin を提案する。我々は,多人数多段階保証手法を用いたcaichong music annotation platform (caimap) を確立し,アノテーションの正確性と一般的な意味論との整合を確保するために,アマチュアとプロフェッショナルの両方を募集した。この手法を利用して,多次元の高精度音楽アノテーション,caichong music dataset (caimd) を用いたデータセットを構築し,高音質の楽曲1000項目を注意深く選択し,muminのテストセットとした。 MuChin を用いて,音楽記述の観点からプロとアマチュアの差異を分析し,微調整 LLM における注釈付きデータの有効性を実証的に実証した。最終的に、私たちは既存の音楽理解モデルを評価するためにMuChinを使用しました。ベンチマークに関連するすべてのデータとスコアリングのコードがオープンソース化された。

関連論文リスト

Advancing the Foundation Model for Music Understanding [9.210248657997687]
総合音楽理解のための基礎モデル MuFun を導入する。我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-08-02T03:33:47Z)
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。 LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文参考訳（メタデータ） (2025-06-14T00:18:44Z)
CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining [15.58671300364536]
本稿では,音楽類似性モデリングの指針となる,新しいクロスモーダルコントラスト学習フレームワークを提案する。高品質なテキストと音楽のペアリングデータの不足を克服するため,本稿では,デュアルソースデータ取得手法を提案する。実験により、提案されたフレームワークは既存のベンチマークよりも大幅にパフォーマンスが向上していることが示された。
論文参考訳（メタデータ） (2025-03-29T15:43:09Z)
CLaMP 2: Multimodal Music Information Retrieval Across 101 Languages Using Large Language Models [51.03510073676228]
CLaMP 2は、音楽情報検索用の101言語に対応するシステムである。大規模言語モデルを活用することで,大規模に洗練され一貫した多言語記述が得られる。 CLaMP 2は、多言語セマンティックサーチとモーダル間の音楽分類において、最先端の結果を得る。
論文参考訳（メタデータ） (2024-10-17T06:43:54Z)
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文参考訳（メタデータ） (2024-08-02T15:34:05Z)
MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation [18.181382408551574]
本稿では,口語記述から歌声生成への新たな課題を提案する。生成されたコンテンツと口語的人間の表現の整合性に焦点を当てている。この課題は、AIモデル内の言語理解と聴覚表現のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-07-03T15:12:36Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-02-27T16:15:28Z)
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文参考訳（メタデータ） (2023-12-14T18:38:02Z)
MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文参考訳（メタデータ） (2023-09-15T19:31:40Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文参考訳（メタデータ） (2022-11-21T14:15:43Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
Codified audio language modeling learns useful representations for music information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。 Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文参考訳（メタデータ） (2021-07-12T18:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。