論文の概要: Beat and Downbeat Tracking in Performance MIDI Using an End-to-End Transformer Architecture
- arxiv url: http://arxiv.org/abs/2507.00466v1
- Date: Tue, 01 Jul 2025 06:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.367824
- Title: Beat and Downbeat Tracking in Performance MIDI Using an End-to-End Transformer Architecture
- Title(参考訳): エンド・ツー・エンド変圧器アーキテクチャを用いたMIDIのビート・ダウンビート追跡
- Authors: Sebastian Murgul, Michael Heizmann,
- Abstract要約: 動作MIDIにおけるビート・アンド・ダウンビート追跡のためのエンド・ツー・エンド・エンド・トランスフォーマーモデルを提案する。
提案手法では,動的拡張やトークン化の最適化など,新しいデータ前処理手法を導入している。
我々は,A-MAPS,ASAP,GuitarSet,Leducのデータセットを用いて,最先端の隠れマルコフモデル(HMM)とディープラーニングに基づくビートトラッキング手法との比較を行った。
- 参考スコア(独自算出の注目度): 2.8544822698499255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Beat tracking in musical performance MIDI is a challenging and important task for notation-level music transcription and rhythmical analysis, yet existing methods primarily focus on audio-based approaches. This paper proposes an end-to-end transformer-based model for beat and downbeat tracking in performance MIDI, leveraging an encoder-decoder architecture for sequence-to-sequence translation of MIDI input to beat annotations. Our approach introduces novel data preprocessing techniques, including dynamic augmentation and optimized tokenization strategies, to improve accuracy and generalizability across different datasets. We conduct extensive experiments using the A-MAPS, ASAP, GuitarSet, and Leduc datasets, comparing our model against state-of-the-art hidden Markov models (HMMs) and deep learning-based beat tracking methods. The results demonstrate that our model outperforms existing symbolic music beat tracking approaches, achieving competitive F1-scores across various musical styles and instruments. Our findings highlight the potential of transformer architectures for symbolic beat tracking and suggest future integration with automatic music transcription systems for enhanced music analysis and score generation.
- Abstract(参考訳): 音楽演奏におけるビートトラッキングMIDIは、表記レベル音楽の書き起こしとリズミカル分析において困難かつ重要なタスクであるが、既存の手法は主に音声に基づくアプローチに焦点を当てている。
本稿では,MIDI入力からビートアノテーションへのシーケンス・ツー・シーケンス変換にエンコーダ・デコーダアーキテクチャを利用する,パフォーマンスMIDIにおけるビート・アンド・ダウンビート追跡のためのエンド・ツー・エンド・エンド・トランスフォーマーモデルを提案する。
提案手法では,動的拡張および最適化トークン化戦略を含む新しいデータ前処理手法を導入し,異なるデータセット間の精度と一般化性を向上する。
我々は、A-MAPS、ASAP、GuitarSet、Leducのデータセットを用いて広範な実験を行い、我々のモデルを最先端の隠れマルコフモデル(HMM)とディープラーニングベースのビートトラッキング手法と比較した。
その結果,本モデルは既存の記号的ビート追跡手法よりも優れており,様々な楽器や楽器のF1スコアと競合する。
本研究は,記号的ビートトラッキングのためのトランスフォーマーアーキテクチャの可能性を強調し,音楽解析と楽譜生成の強化を目的とした自動音符書き起こしシステムとの今後の統合を提案する。
関連論文リスト
- Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Fretting-Transformer: Encoder-Decoder Model for MIDI to Tablature Transcription [2.3249139042158853]
Fretting-Transformer(フレッティング・トランスフォーマー)は、T5トランスフォーマーアーキテクチャを利用して、MIDIシーケンスをギターのタブーに自動転写するエンコーダデコーダモデルである。
タスクをシンボリック翻訳問題としてフレーミングすることで、文字列のあいまいさや物理的プレイ可能性といった重要な課題に対処する。
論文 参考訳(メタデータ) (2025-06-17T06:25:35Z) - End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。