論文の概要: Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving
- arxiv url: http://arxiv.org/abs/2407.21030v1
- Date: Mon, 15 Jul 2024 14:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 00:46:38.889488
- Title: Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving
- Title(参考訳): クラスタと分離:スコア彫刻における音声とスタッフ予測へのGNNアプローチ
- Authors: Francesco Foscarin, Emmanouil Karystinaios, Eita Nakamura, Gerhard Widmer,
- Abstract要約: 本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。
本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
- 参考スコア(独自算出の注目度): 5.572472212662453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper approaches the problem of separating the notes from a quantized symbolic music piece (e.g., a MIDI file) into multiple voices and staves. This is a fundamental part of the larger task of music score engraving (or score typesetting), which aims to produce readable musical scores for human performers. We focus on piano music and support homophonic voices, i.e., voices that can contain chords, and cross-staff voices, which are notably difficult tasks that have often been overlooked in previous research. We propose an end-to-end system based on graph neural networks that clusters notes that belong to the same chord and connects them with edges if they are part of a voice. Our results show clear and consistent improvements over a previous approach on two datasets of different styles. To aid the qualitative analysis of our results, we support the export in symbolic music formats and provide a direct visualization of our outputs graph over the musical score. All code and pre-trained models are available at https://github.com/CPJKU/piano_svsep
- Abstract(参考訳): 本稿では,音符を量子化された記号楽曲(例:MIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。
これは、人間の演奏者のための可読性のある楽譜を作成することを目的とした、より大きな楽譜エングレービング(あるいは楽譜タイプセット)の作業の基本的な部分である。
我々はピアノ音楽に焦点を合わせ、ホモフォニックな声、すなわちコードを含む声、クロススタッフの声をサポートする。
本稿では,同じ和音に属する音符をクラスタ化し,音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
その結果,従来の2つのスタイルのデータセットに対するアプローチよりも明確で一貫した改善が得られた。
結果の質的分析を支援するため,記号的な音楽フォーマットのエクスポートをサポートし,楽譜上の出力グラフを直接可視化する。
すべてのコードと事前訓練されたモデルはhttps://github.com/CPJKU/piano_svsepで入手できる。
関連論文リスト
- Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Musical Voice Separation as Link Prediction: Modeling a Musical
Perception Task as a Multi-Trajectory Tracking Problem [6.617487928813374]
本論文は,ポリフォニック音楽作品において,異なる相互作用する声,すなわちモノフォニック・メロディック・ストリームを分離する知覚的タスクを目標とする。
我々はこのタスクを、離散的な観測、すなわちピッチ時間空間における音符から、MTT(Multi-Trajectory Tracking)問題としてモデル化する。
提案手法では,音符毎に1つのノードを作成し,同じ音声/ストリームで連続している場合の2つの音符間のリンクを予測し,旋律的軌跡を分離することにより,楽譜からグラフを構築する。
論文 参考訳(メタデータ) (2023-04-28T13:48:00Z) - A Phoneme-Informed Neural Network Model for Note-Level Singing
Transcription [11.951441023641975]
本稿では,歌唱の言語的特徴を活用して,より正確に歌唱音声の音節オンセットを見つける方法を提案する。
本手法は, 歌唱文の書き起こし性能を大幅に向上させ, 歌唱分析における言語的特徴の重要性を強調している。
論文 参考訳(メタデータ) (2023-04-12T15:36:01Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - Score Transformer: Generating Musical Score from Note-level
Representation [2.3554584457413483]
音符レベルの表現を適切な音楽表記に変換するためにトランスフォーマーモデルを訓練する。
また、モデルを扱うための効果的な表記レベルトークン表現についても検討する。
論文 参考訳(メタデータ) (2021-12-01T09:08:01Z) - From Note-Level to Chord-Level Neural Network Models for Voice
Separation in Symbolic Music [0.0]
我々は、和音(和音レベル)の各音に対して別々に音符を割り当てるニューラルネットワークを訓練し、和音レベル(和音レベル)のすべての音符に共同で音符を割り当てる。
どちらのモデルもエンベロープ抽出関数の反復的適用に基づいて強いベースラインを超える。
2つのモデルはまた、バッハ音楽における声を分離する以前のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-11-05T18:39:42Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。