論文の概要: Aria-MIDI: A Dataset of Piano MIDI Files for Symbolic Music Modeling
- arxiv url: http://arxiv.org/abs/2504.15071v1
- Date: Mon, 21 Apr 2025 12:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.221309
- Title: Aria-MIDI: A Dataset of Piano MIDI Files for Symbolic Music Modeling
- Title(参考訳): Aria-MIDI:シンボリック・ミュージック・モデリングのためのピアノMIDIファイルのデータセット
- Authors: Louis Bradshaw, Simon Colton,
- Abstract要約: ピアノ演奏の録音を音符に書き起こして作成したMIDIファイルのデータセットについて紹介する。
私たちが使っているデータパイプラインはマルチステージで、インターネットから自律的にクロールしてオーディオ録音をスコアする言語モデルを採用しています。
得られたデータセットには100万以上の異なるMIDIファイルが含まれており、約10万時間の音声が書き起こされている。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an extensive new dataset of MIDI files, created by transcribing audio recordings of piano performances into their constituent notes. The data pipeline we use is multi-stage, employing a language model to autonomously crawl and score audio recordings from the internet based on their metadata, followed by a stage of pruning and segmentation using an audio classifier. The resulting dataset contains over one million distinct MIDI files, comprising roughly 100,000 hours of transcribed audio. We provide an in-depth analysis of our techniques, offering statistical insights, and investigate the content by extracting metadata tags, which we also provide. Dataset available at https://github.com/loubbrad/aria-midi.
- Abstract(参考訳): ピアノ演奏の録音を音符に書き起こして作成したMIDIファイルのデータセットについて紹介する。
私たちが使用するデータパイプラインは多段階的であり、メタデータに基づいてインターネットから音声録音を自律的にクロールしてスコアする言語モデルを使用し、続いてオーディオ分類器を使用してプルーニングとセグメンテーションを行う。
得られたデータセットには100万以上の異なるMIDIファイルが含まれており、約10万時間の音声が書き起こされている。
提案手法を詳細に分析し,統計的洞察を提供し,メタデータタグを抽出し,その内容について検討する。
データセットはhttps://github.com/loubbrad/aria-midi.comで入手できる。
関連論文リスト
- Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。
モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文 参考訳(メタデータ) (2025-04-25T15:31:46Z) - JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata [6.230204066837519]
JamendoMaxCapsは、Jamendoプラットフォームから362,000以上のフリーライセンスのインストゥルメンタルトラックを備えた、大規模なミュージックキャプションデータセットである。
データセットには、最先端のキャプションモデルによって生成されたキャプションが含まれており、暗黙のメタデータで強化されている。
論文 参考訳(メタデータ) (2025-02-11T11:12:19Z) - PIAST: A Multimodal Piano Dataset with Audio, Symbolic and Text [8.382511298208003]
PIAST(PIAST, PIano dataset with Audio, Symbolic, and Text)は、ピアノ音楽のデータセットである。
われわれはYouTubeから9,673曲を収集し、音楽の専門家による2,023曲の人間のアノテーションを追加した。
どちらも、オーディオ、テキスト、タグアノテーション、そして最先端のピアノの書き起こしとビート追跡モデルを利用したMIDIの書き起こしである。
論文 参考訳(メタデータ) (2024-11-04T19:34:13Z) - MidiCaps: A large-scale MIDI dataset with text captions [6.806050368211496]
本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。
近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
論文 参考訳(メタデータ) (2024-06-04T12:21:55Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。