論文の概要: The GigaMIDI Dataset with Features for Expressive Music Performance Detection
- arxiv url: http://arxiv.org/abs/2502.17726v1
- Date: Mon, 24 Feb 2025 23:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:45.368948
- Title: The GigaMIDI Dataset with Features for Expressive Music Performance Detection
- Title(参考訳): 表現力のある演奏検出機能を備えたGigaMIDIデータセット
- Authors: Keon Ju Maverick Lee, Jeff Ens, Sara Adkins, Pedro Sarmento, Mathieu Barthet, Philippe Pasquier,
- Abstract要約: GigaMIDIデータセットには、140万以上のユニークなMIDIファイルが含まれており、180億のMIDIノートイベントと530万のMIDIトラックが含まれている。
このGigaMIDIのキュレートされたイテレーションは、NOMMLによって検出された、GigaMIDIデータセットの31%を構成する、明示的なパフォーマンスの楽器トラックを含んでいる。
- 参考スコア(独自算出の注目度): 5.585625844344932
- License:
- Abstract: The Musical Instrument Digital Interface (MIDI), introduced in 1983, revolutionized music production by allowing computers and instruments to communicate efficiently. MIDI files encode musical instructions compactly, facilitating convenient music sharing. They benefit Music Information Retrieval (MIR), aiding in research on music understanding, computational musicology, and generative music. The GigaMIDI dataset contains over 1.4 million unique MIDI files, encompassing 1.8 billion MIDI note events and over 5.3 million MIDI tracks. GigaMIDI is currently the largest collection of symbolic music in MIDI format available for research purposes under fair dealing. Distinguishing between non-expressive and expressive MIDI tracks is challenging, as MIDI files do not inherently make this distinction. To address this issue, we introduce a set of innovative heuristics for detecting expressive music performance. These include the Distinctive Note Velocity Ratio (DNVR) heuristic, which analyzes MIDI note velocity; the Distinctive Note Onset Deviation Ratio (DNODR) heuristic, which examines deviations in note onset times; and the Note Onset Median Metric Level (NOMML) heuristic, which evaluates onset positions relative to metric levels. Our evaluation demonstrates these heuristics effectively differentiate between non-expressive and expressive MIDI tracks. Furthermore, after evaluation, we create the most substantial expressive MIDI dataset, employing our heuristic, NOMML. This curated iteration of GigaMIDI encompasses expressively-performed instrument tracks detected by NOMML, containing all General MIDI instruments, constituting 31% of the GigaMIDI dataset, totalling 1,655,649 tracks.
- Abstract(参考訳): 1983年に導入されたMIDI(Musical Instrument Digital Interface)は、コンピュータと楽器が効率的に通信できるようにすることによって音楽制作に革命をもたらした。
MIDIファイルは、音楽命令をコンパクトにエンコードし、便利な音楽共有を容易にする。
彼らは音楽情報検索(MIR)の恩恵を受け、音楽理解、計算音楽学、生成音楽の研究を支援している。
GigaMIDIデータセットには、140万以上のユニークなMIDIファイルが含まれており、180億のMIDIノートイベントと530万のMIDIトラックが含まれている。
ギガMIDIは現在、公正取引の下で研究目的で利用できるMIDIフォーマットで最大のシンボリック音楽コレクションである。
非表現的MIDIトラックと表現的MIDIトラックの区別は、MIDIファイルが本質的にこの区別をしないため、困難である。
この問題に対処するために,表現力のある演奏を検出する革新的なヒューリスティックスを導入する。
例えば、MIDIノート速度を分析するDNVRヒューリスティック(Distinctive Note Velocity Ratio)ヒューリスティック(Distinctive Note Onset Deviation Ratio(DNODR)ヒューリスティック(Distinctive Note Onset Deviation Ratio)ヒューリスティック(Distinctive Note Onset Deviation Ratio)ヒューリスティック(DNODR)ヒューリスティック(Distinctive Note Onset Deviation Ratio)ヒューリスティック(DNODR)ヒューリスティック(Note Onset Median Metric Level(NOMML)ヒューリスティック)ヒューリスティック(Note Onset Median Metric Level(NOMML)ヒューリスティック)ヒューリスティック(Note Onset Position)ヒューリスティック)である。
評価の結果,これらのヒューリスティックスは非表現的MIDIトラックと表現的MIDIトラックとを効果的に区別できることがわかった。
さらに、評価後、我々は最も実質的な表現型MIDIデータセットを作成し、ヒューリスティックなNOMMLを使用します。
このキュレートされたGigaMIDIは、NOMMLによって検出された、すべての一般MIDI機器を含み、GigaMIDIデータセットの31%を構成し、合計1,655,649トラックである。
関連論文リスト
- MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition [4.152843247686306]
MIDI-GPTはコンピュータ支援音楽合成のための生成システムである。
楽器の種類、音楽スタイル、音の密度、ポリフォニーレベル、音の持続時間などの属性を条件付けできる。
本研究では,MIDI-GPTがトレーニング対象の音楽素材の複製を一貫して回避し,トレーニングデータセットとスタイリスティックに類似した音楽を生成し,属性制御が生成した素材に様々な制約を課すことを実証する実験結果を示す。
論文 参考訳(メタデータ) (2025-01-28T15:17:36Z) - MidiTok Visualizer: a tool for visualization and analysis of tokenized MIDI symbolic music [0.0]
MidiTok Visualizerは、MidiTok Pythonパッケージから様々なMIDIトークン化メソッドの探索と視覚化を容易にするために設計されたWebアプリケーションである。
論文 参考訳(メタデータ) (2024-10-27T17:00:55Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - MidiCaps: A large-scale MIDI dataset with text captions [6.806050368211496]
本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。
近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
論文 参考訳(メタデータ) (2024-06-04T12:21:55Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - Large-Scale MIDI-based Composer Classification [13.815200249190529]
広義MIDIピアノを用いたMIDIに基づく大規模楽曲分類システムを提案する。
我々は、最大100人の作曲家による作曲家の分類問題を調査した最初の人物である。
本システムでは,0.648と0.385の10コンポーザと100コンポーザの分類精度を実現する。
論文 参考訳(メタデータ) (2020-10-28T08:07:55Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。