論文の概要: MidiCaps: A large-scale MIDI dataset with text captions
- arxiv url: http://arxiv.org/abs/2406.02255v2
- Date: Mon, 22 Jul 2024 09:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 01:11:44.603095
- Title: MidiCaps: A large-scale MIDI dataset with text captions
- Title(参考訳): MidiCaps: テキストキャプションを備えた大規模MIDIデータセット
- Authors: Jan Melechovsky, Abhinaba Roy, Dorien Herremans,
- Abstract要約: 本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。
近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
- 参考スコア(独自算出の注目度): 6.806050368211496
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative models guided by text prompts are increasingly becoming more popular. However, no text-to-MIDI models currently exist due to the lack of a captioned MIDI dataset. This work aims to enable research that combines LLMs with symbolic music by presenting, the first openly available large-scale MIDI dataset with text captions. MIDI (Musical Instrument Digital Interface) files are widely used for encoding musical information and can capture the nuances of musical composition. They are widely used by music producers, composers, musicologists, and performers alike. Inspired by recent advancements in captioning techniques, we present a curated dataset of over 168k MIDI files with textual descriptions. Each MIDI caption describes the musical content, including tempo, chord progression, time signature, instruments, genre, and mood, thus facilitating multi-modal exploration and analysis. The dataset encompasses various genres, styles, and complexities, offering a rich data source for training and evaluating models for tasks such as music information retrieval, music understanding, and cross-modal translation. We provide detailed statistics about the dataset and have assessed the quality of the captions in an extensive listening study. We anticipate that this resource will stimulate further research at the intersection of music and natural language processing, fostering advancements in both fields.
- Abstract(参考訳): テキストプロンプトによってガイドされる生成モデルは、ますます人気が高まっている。
しかし、キャプション付きMIDIデータセットがないため、現在テキスト・トゥ・MIDIモデルは存在しない。
本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。
MIDI(Musical Instrument Digital Interface)ファイルは、音楽情報を符号化するために広く使われており、作曲のニュアンスを捉えることができる。
音楽プロデューサー、作曲家、音楽学者、演奏家らによって広く使用されている。
近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
それぞれのMIDIキャプションは、テンポ、コード進行、タイムシグネチャ、楽器、ジャンル、ムードを含む音楽内容を記述し、マルチモーダルな探索と分析を容易にする。
このデータセットは様々なジャンル、スタイル、複雑さを包含し、音楽情報検索、音楽理解、クロスモーダル翻訳といったタスクのモデルのトレーニングと評価のための豊富なデータソースを提供する。
我々は,データセットに関する詳細な統計情報を提供し,広範囲にわたる聴取調査において,キャプションの品質を評価した。
我々は,この資源が音楽と自然言語処理の交差点におけるさらなる研究を刺激し,両分野の進歩を促進することを期待する。
関連論文リスト
- PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text [8.382511298208003]
PIAST(PIAST, PIano dataset with Audio, Symbolic, and Text)は、ピアノ音楽のデータセットである。
われわれはYouTubeから9,673曲を収集し、音楽の専門家による2,023曲の人間のアノテーションを追加した。
どちらも、オーディオ、テキスト、タグアノテーション、そして最先端のピアノの書き起こしとビート追跡モデルを利用したMIDIの書き起こしである。
論文 参考訳(メタデータ) (2024-11-04T19:34:13Z) - MidiTok Visualizer: a tool for visualization and analysis of tokenized MIDI symbolic music [0.0]
MidiTok Visualizerは、MidiTok Pythonパッケージから様々なMIDIトークン化メソッドの探索と視覚化を容易にするために設計されたWebアプリケーションである。
論文 参考訳(メタデータ) (2024-10-27T17:00:55Z) - Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing [3.3162176082220975]
高品質な3次元モーションキャプチャーデータ、アライメント音声記録、ピッチ、ビート、フレーズ、動的、調音、ハーモニーを含むMOSA(Music mOtion with Semantic )データセットを23人のプロミュージシャンによる742のプロ音楽演奏に対して提示する。
私たちの知る限り、これはこれまでのノートレベルのアノテーションを備えた、最大のクロスモーダルな音楽データセットです。
論文 参考訳(メタデータ) (2024-06-10T15:37:46Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。