論文の概要: EngravingGNN: A Hybrid Graph Neural Network for End-to-End Piano Score Engraving
- arxiv url: http://arxiv.org/abs/2509.19412v1
- Date: Tue, 23 Sep 2025 14:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.549975
- Title: EngravingGNN: A Hybrid Graph Neural Network for End-to-End Piano Score Engraving
- Title(参考訳): EngravingGNN: エンドツーエンドのピアノスコアエングレービングのためのハイブリッドグラフニューラルネットワーク
- Authors: Emmanouil Karystinaios, Francesco Foscarin, Gerhard Widmer,
- Abstract要約: 本稿では,ピアノ音楽と量子化記号入力を対象とする統一グラフニューラルネットワーク(GNN)フレームワークを提案する。
提案手法では,複数タスクのGNNを用いて音声接続,スタッフ割り当て,ピッチスペル,キーシグネチャ,ステム方向,オクターブシフト,サインを共同で予測する。
専用の後処理パイプラインは、印刷可能なMusicXML/MEI出力を生成する。
- 参考スコア(独自算出の注目度): 11.904295041273201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on automatic music engraving, i.e., the creation of a humanly-readable musical score from musical content. This step is fundamental for all applications that include a human player, but it remains a mostly unexplored topic in symbolic music processing. In this work, we formalize the problem as a collection of interdependent subtasks, and propose a unified graph neural network (GNN) framework that targets the case of piano music and quantized symbolic input. Our method employs a multi-task GNN to jointly predict voice connections, staff assignments, pitch spelling, key signature, stem direction, octave shifts, and clef signs. A dedicated postprocessing pipeline generates print-ready MusicXML/MEI outputs. Comprehensive evaluation on two diverse piano corpora (J-Pop and DCML Romantic) demonstrates that our unified model achieves good accuracy across all subtasks, compared to existing systems that only specialize in specific subtasks. These results indicate that a shared GNN encoder with lightweight task-specific decoders in a multi-task setting offers a scalable and effective solution for automatic music engraving.
- Abstract(参考訳): 本稿では,音楽コンテンツから可読性のある音楽の楽譜を作成することに焦点を当てた。
このステップは、人間のプレイヤーを含む全てのアプリケーションにとって基本的なものであるが、シンボリックな音楽処理において、ほとんど探索されていないトピックである。
本研究では,相互依存サブタスクの集合として問題を定式化し,ピアノ音楽や量子化記号入力を対象とする統一グラフニューラルネットワーク(GNN)フレームワークを提案する。
提案手法では,複数タスクのGNNを用いて音声接続,スタッフ割り当て,ピッチスペル,キーシグネチャ,ステム方向,オクターブシフト,クレーフサインを共同で予測する。
専用の後処理パイプラインは、印刷可能なMusicXML/MEI出力を生成する。
2つのピアノコーパス(J-Pop と DCML ロマンティック)の総合的な評価は、我々の統一モデルは、特定のサブタスクのみに特化している既存のシステムと比較して、すべてのサブタスクにわたって良好な精度を達成できることを示している。
これらの結果から,タスク固有デコーダを多タスク設定で共有した共有GNNエンコーダは,楽譜の自動彫りにおいて,スケーラブルで効果的な解法であることがわかった。
関連論文リスト
- PianoVAM: A Multimodal Piano Performance Dataset [56.318475235705954]
PianoVAMは、ビデオ、オーディオ、MIDI、手のランドマーク、指のラベル、リッチメタデータを含む包括的なピアノパフォーマンスデータセットである。
データセットはディクラヴィエピアノを使用して録音され、アマチュアピアニストの日々の練習セッション中にオーディオとMIDIをキャプチャした。
事前訓練されたポーズ推定モデルと半自動指先アノテーションアルゴリズムを用いて,手指のランドマークと指先ラベルを抽出した。
論文 参考訳(メタデータ) (2025-09-10T17:35:58Z) - GraphMuse: A Library for Symbolic Music Graph Processing [3.997809845676912]
GraphMuseは、効率的な音楽グラフ処理を容易にするグラフ処理フレームワークとライブラリである。
音楽の楽譜における意味のある動作を対象とする新しいサンプリング手法が,我々の貢献の中心である。
GraphMuseは、グラフ表現に基づくシンボリックな音楽処理の強化と標準化に繋がることを期待しています。
論文 参考訳(メタデータ) (2024-07-17T15:54:09Z) - Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving [5.572472212662453]
本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。
本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-07-15T14:36:13Z) - N-Gram Unsupervised Compoundation and Feature Injection for Better
Symbolic Music Understanding [27.554853901252084]
音楽系列は隣接要素間の強い相関関係を示し、自然言語処理(NLP)によるN-gram技術の主要な候補となる。
本稿では,N-gramアプローチを利用したシンボリック・ミュージック・シーケンス理解のための新しい手法NG-Midiformerを提案する。
論文 参考訳(メタデータ) (2023-12-13T06:08:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Differential Music: Automated Music Generation Using LSTM Networks with
Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。
絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。
実験結果は、音楽やトーンを聴くと約束を示す。
論文 参考訳(メタデータ) (2021-08-23T23:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。