論文の概要: End-to-end Piano Performance-MIDI to Score Conversion with Transformers
- arxiv url: http://arxiv.org/abs/2410.00210v1
- Date: Mon, 30 Sep 2024 20:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:56:01.910711
- Title: End-to-end Piano Performance-MIDI to Score Conversion with Transformers
- Title(参考訳): エンドツーエンドピアノ演奏-MIDIによる変圧器を用いたスコア変換
- Authors: Tim Beyer, Angela Dai,
- Abstract要約: 実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
- 参考スコア(独自算出の注目度): 26.900974153235456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated creation of accurate musical notation from an expressive human performance is a fundamental task in computational musicology. To this end, we present an end-to-end deep learning approach that constructs detailed musical scores directly from real-world piano performance-MIDI files. We introduce a modern transformer-based architecture with a novel tokenized representation for symbolic music data. Framing the task as sequence-to-sequence translation rather than note-wise classification reduces alignment requirements and annotation costs, while allowing the prediction of more concise and accurate notation. To serialize symbolic music data, we design a custom tokenization stage based on compound tokens that carefully quantizes continuous values. This technique preserves more score information while reducing sequence lengths by $3.5\times$ compared to prior approaches. Using the transformer backbone, our method demonstrates better understanding of note values, rhythmic structure, and details such as staff assignment. When evaluated end-to-end using transcription metrics such as MUSTER, we achieve significant improvements over previous deep learning approaches and complex HMM-based state-of-the-art pipelines. Our method is also the first to directly predict notational details like trill marks or stem direction from performance data. Code and models are available at https://github.com/TimFelixBeyer/MIDI2ScoreTransformer
- Abstract(参考訳): 表現力のある人間の演奏から正確な音符の自動生成は、計算音楽学の基本的な課題である。
そこで本研究では,実世界のピアノ演奏-MIDIファイルから直接,詳細な楽譜を構築するエンド・ツー・エンドのディープラーニング手法を提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
タスクをノートワイズ分類ではなくシーケンスからシーケンスへの変換として分別することは、より簡潔で正確な表記の予測を可能にしながら、アライメントの要求とアノテーションのコストを低減させる。
シンボリックな音楽データをシリアライズするために、連続した値を注意深く定量化する複合トークンに基づいて、カスタムなトークン化ステージを設計する。
この手法は、従来の手法と比較して、シーケンス長を$3.5\times$に減らしながら、より多くのスコア情報を保存する。
本手法は, 変圧器のバックボーンを用いて, 音符値, リズミカルな構造, スタッフの割り当てなどの詳細の理解を深める。
MUSTERなどの転写指標を用いてエンドツーエンドの評価を行うと、従来のディープラーニングアプローチや複雑なHMMベースの最先端パイプラインよりも大幅に改善される。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
コードとモデルはhttps://github.com/TimFelixBeyer/MIDI2ScoreTransformerで入手できる。
関連論文リスト
- Audio-to-Score Conversion Model Based on Whisper methodology [0.0]
この論文は、音楽情報をトークンに変換するカスタム表記システムである"Orpheus' Score"を革新的に導入している。
実験によると、従来のアルゴリズムと比較して、モデルは精度と性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-10-22T17:31:37Z) - Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - N-Gram Unsupervised Compoundation and Feature Injection for Better
Symbolic Music Understanding [27.554853901252084]
音楽系列は隣接要素間の強い相関関係を示し、自然言語処理(NLP)によるN-gram技術の主要な候補となる。
本稿では,N-gramアプローチを利用したシンボリック・ミュージック・シーケンス理解のための新しい手法NG-Midiformerを提案する。
論文 参考訳(メタデータ) (2023-12-13T06:08:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Score Transformer: Generating Musical Score from Note-level
Representation [2.3554584457413483]
音符レベルの表現を適切な音楽表記に変換するためにトランスフォーマーモデルを訓練する。
また、モデルを扱うための効果的な表記レベルトークン表現についても検討する。
論文 参考訳(メタデータ) (2021-12-01T09:08:01Z) - Sequence-to-Sequence Piano Transcription with Transformers [6.177271244427368]
標準的な復号法を用いたエンコーダ・デコーダ変換器を用いて,等価な性能が得られることを示す。
本モデルでは,複数の転写タスクに対して,スペクトル入力を直接MIDIライクな出力イベントに変換することを学習できることを実証する。
論文 参考訳(メタデータ) (2021-07-19T20:33:09Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。