論文の概要: MidiCaps -- A large-scale MIDI dataset with text captions
- arxiv url: http://arxiv.org/abs/2406.02255v1
- Date: Tue, 4 Jun 2024 12:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:32:17.855921
- Title: MidiCaps -- A large-scale MIDI dataset with text captions
- Title(参考訳): MidiCaps -- テキストキャプションを備えた大規模MIDIデータセット
- Authors: Jan Melechovsky, Abhinaba Roy, Dorien Herremans,
- Abstract要約: 本研究の目的は,最初の大規模MIDIデータセットとテキストキャプションであるMidiCapsを提示することにより,LLMとシンボリック音楽を組み合わせた研究を可能にすることである。
様々なドメインに適用されたキャプション手法の最近の進歩に触発されて,テキスト記述を伴う168kのMIDIファイルからなる大規模キュレートデータセットを提示する。
このデータセットには様々なジャンル、スタイル、複雑さが混在しており、音楽情報検索、音楽理解、クロスモーダル翻訳といったタスクのモデルのトレーニングと評価のための豊富な情報源を提供する。
- 参考スコア(独自算出の注目度): 6.806050368211496
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative models guided by text prompts are increasingly becoming more popular. However, no text-to-MIDI models currently exist, mostly due to the lack of a captioned MIDI dataset. This work aims to enable research that combines LLMs with symbolic music by presenting the first large-scale MIDI dataset with text captions that is openly available: MidiCaps. MIDI (Musical Instrument Digital Interface) files are a widely used format for encoding musical information. Their structured format captures the nuances of musical composition and has practical applications by music producers, composers, musicologists, as well as performers. Inspired by recent advancements in captioning techniques applied to various domains, we present a large-scale curated dataset of over 168k MIDI files accompanied by textual descriptions. Each MIDI caption succinctly describes the musical content, encompassing tempo, chord progression, time signature, instruments present, genre and mood; thereby facilitating multi-modal exploration and analysis. The dataset contains a mix of various genres, styles, and complexities, offering a rich source for training and evaluating models for tasks such as music information retrieval, music understanding and cross-modal translation. We provide detailed statistics about the dataset and have assessed the quality of the captions in an extensive listening study. We anticipate that this resource will stimulate further research in the intersection of music and natural language processing, fostering advancements in both fields.
- Abstract(参考訳): テキストプロンプトによってガイドされる生成モデルは、ますます人気が高まっている。
しかし、主にキャプション付きMIDIデータセットがないために、現在テキストからMIDIモデルが存在しない。
本研究の目的は,最初の大規模MIDIデータセットを公開可能なテキストキャプションであるMidiCapsで提示することにより,LLMとシンボル音楽を組み合わせた研究を可能にすることである。
MIDI (Musical Instrument Digital Interface) ファイルは、音楽情報を符号化するために広く使われているフォーマットである。
彼らの構成された形式は、作曲のニュアンスを捉え、音楽プロデューサー、作曲家、音楽学者、そしてパフォーマーによって実践的な応用がなされている。
様々なドメインに適用されたキャプション手法の最近の進歩に触発されて,テキスト記述を伴う168kのMIDIファイルからなる大規模キュレートデータセットを提示する。
各MIDIキャプションは、テンポ、コード進行、タイムシグネチャ、楽器、ジャンル、ムードを含む音楽内容を簡潔に記述し、マルチモーダル探索と分析を容易にする。
このデータセットには様々なジャンル、スタイル、複雑さが混在しており、音楽情報検索、音楽理解、クロスモーダル翻訳といったタスクのモデルのトレーニングと評価のための豊富な情報源を提供する。
我々は,データセットに関する詳細な統計情報を提供し,広範囲にわたる聴取調査において,キャプションの品質を評価した。
我々は,この資源が音楽と自然言語処理の交わりのさらなる研究を刺激し,両分野の進歩を促進することを期待する。
関連論文リスト
- Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing [3.3162176082220975]
高品質な3次元モーションキャプチャーデータ、アライメント音声記録、ピッチ、ビート、フレーズ、動的、調音、ハーモニーを含むMOSA(Music mOtion with Semantic )データセットを23人のプロミュージシャンによる742のプロ音楽演奏に対して提示する。
私たちの知る限り、これはこれまでのノートレベルのアノテーションを備えた、最大のクロスモーダルな音楽データセットです。
論文 参考訳(メタデータ) (2024-06-10T15:37:46Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [73.47607237309258]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset [1.3607388598209322]
12kのMIDI曲からなる大規模感情ラベル付きシンボリック・ミュージック・データセットを提案する。
最初に、GoEmotionsデータセット上で感情分類モデルを訓練し、ベースラインの半分の大きさのモデルで最先端の結果を得た。
我々のデータセットは、様々なきめ細かい感情をカバーし、音楽と感情の関連性を探るための貴重なリソースを提供する。
論文 参考訳(メタデータ) (2023-07-27T11:24:47Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - MusicLM: Generating Music From Text [24.465880798449735]
テキスト記述から高忠実度音楽を生成するモデルであるMusicLMを紹介する。
MusicLMは、階層的なシーケンス・ツー・シーケンス・モデリングタスクとして条件付き音楽生成のプロセスをキャストする。
実験の結果,MusicLMは従来のシステムよりも音質やテキスト記述の順応性が優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-26T18:58:53Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。