論文の概要: MuChin: A Chinese Colloquial Description Benchmark for Evaluating
Language Models in the Field of Music
- arxiv url: http://arxiv.org/abs/2402.09871v1
- Date: Thu, 15 Feb 2024 10:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:03:52.097436
- Title: MuChin: A Chinese Colloquial Description Benchmark for Evaluating
Language Models in the Field of Music
- Title(参考訳): MuChin: 音楽分野における言語モデル評価のための中国語の口語記述ベンチマーク
- Authors: Zihao Wang, Shuyu Li, Tao Zhang, Qi Wang, Pengfei Yu, Jinyang Luo, Yan
Liu, Ming Xi, Kejun Zhang
- Abstract要約: MuChinは中国語で書かれた最初のオープンソースの音楽記述ベンチマークである。
音楽の理解と記述において,マルチモーダル大規模言語モデルの性能を評価するように設計されている。
ベンチマークに関連するすべてのデータとスコアリングのコードがオープンソース化された。
- 参考スコア(独自算出の注目度): 22.184603245051843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapidly evolving multimodal Large Language Models (LLMs) urgently require
new benchmarks to uniformly evaluate their performance on understanding and
textually describing music. However, due to semantic gaps between Music
Information Retrieval (MIR) algorithms and human understanding, discrepancies
between professionals and the public, and low precision of annotations,
existing music description datasets cannot serve as benchmarks. To this end, we
present MuChin, the first open-source music description benchmark in Chinese
colloquial language, designed to evaluate the performance of multimodal LLMs in
understanding and describing music. We established the Caichong Music
Annotation Platform (CaiMAP) that employs an innovative multi-person,
multi-stage assurance method, and recruited both amateurs and professionals to
ensure the precision of annotations and alignment with popular semantics.
Utilizing this method, we built a dataset with multi-dimensional,
high-precision music annotations, the Caichong Music Dataset (CaiMD), and
carefully selected 1,000 high-quality entries to serve as the test set for
MuChin. Based on MuChin, we analyzed the discrepancies between professionals
and amateurs in terms of music description, and empirically demonstrated the
effectiveness of annotated data for fine-tuning LLMs. Ultimately, we employed
MuChin to evaluate existing music understanding models on their ability to
provide colloquial descriptions of music. All data related to the benchmark and
the code for scoring have been open-sourced.
- Abstract(参考訳): 急速に発展するマルチモーダル大規模言語モデル(llm)は、音楽の理解とテキスト記述に関するパフォーマンスを統一的に評価するための新しいベンチマークを緊急に要求する。
しかし、音楽情報検索(MIR)アルゴリズムと人間の理解、専門家と一般人の相違、注釈の精度の低さにより、既存の音楽記述データセットはベンチマークとして機能することができない。
そこで本研究では,マルチモーダルllmの性能評価を目的とし,中国語言語で初のオープンソース音楽記述ベンチマークである muchin を提案する。
我々は,多人数多段階保証手法を用いたcaichong music annotation platform (caimap) を確立し,アノテーションの正確性と一般的な意味論との整合を確保するために,アマチュアとプロフェッショナルの両方を募集した。
この手法を利用して,多次元の高精度音楽アノテーション,caichong music dataset (caimd) を用いたデータセットを構築し,高音質の楽曲1000項目を注意深く選択し,muminのテストセットとした。
MuChin を用いて,音楽記述の観点からプロとアマチュアの差異を分析し,微調整 LLM における注釈付きデータの有効性を実証的に実証した。
最終的に、私たちは既存の音楽理解モデルを評価するためにMuChinを使用しました。
ベンチマークに関連するすべてのデータとスコアリングのコードがオープンソース化された。
関連論文リスト
- SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for
Music Captioning and Query Response [44.58063693945076]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Codified audio language modeling learns useful representations for music
information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-12T18:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。