論文の概要: Exploring Classical Piano Performance Generation with Expressive Music Variational AutoEncoder
- arxiv url: http://arxiv.org/abs/2507.01582v1
- Date: Wed, 02 Jul 2025 10:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.155823
- Title: Exploring Classical Piano Performance Generation with Expressive Music Variational AutoEncoder
- Title(参考訳): 楽譜変奏オートエンコーダを用いたクラシックピアノ演奏の探索
- Authors: Jing Luo, Xinyu Yang, Jie Wei,
- Abstract要約: 本稿では,作曲家とピアニストの二重的役割をエミュレートすることを目的とした,クラシックピアノの演奏をゼロから創り出すという課題に対処する。
本稿では,古典演奏の韻律的構造と表現的ニュアンスの両方を効果的に捉えた表現的複合語表現を提案する。
本稿では,楽譜関連コンテンツを生成するベクトル量子変分オートエンコーダ(VQ-VAE)ブランチと,表現的詳細を生成するバニラVAEブランチという,ピアノ奏者の役割を果たす2つのブランチを特徴とするモデルであるExpressive Music Variational AutoEncoder(XMVAE)を提案する。
- 参考スコア(独自算出の注目度): 15.668253435545921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The creativity of classical music arises not only from composers who craft the musical sheets but also from performers who interpret the static notations with expressive nuances. This paper addresses the challenge of generating classical piano performances from scratch, aiming to emulate the dual roles of composer and pianist in the creative process. We introduce the Expressive Compound Word (ECP) representation, which effectively captures both the metrical structure and expressive nuances of classical performances. Building on this, we propose the Expressive Music Variational AutoEncoder (XMVAE), a model featuring two branches: a Vector Quantized Variational AutoEncoder (VQ-VAE) branch that generates score-related content, representing the Composer, and a vanilla VAE branch that produces expressive details, fulfilling the role of Pianist. These branches are jointly trained with similar Seq2Seq architectures, leveraging a multiscale encoder to capture beat-level contextual information and an orthogonal Transformer decoder for efficient compound tokens decoding. Both objective and subjective evaluations demonstrate that XMVAE generates classical performances with superior musical quality compared to state-of-the-art models. Furthermore, pretraining the Composer branch on extra musical score datasets contribute to a significant performance gain.
- Abstract(参考訳): クラシック音楽の創造性は、楽譜を製作する作曲家だけでなく、静的な表記を表現的なニュアンスで解釈する演奏者からもたらされる。
本稿では,創作過程における作曲家とピアニストの二重的役割をエミュレートすることを目的とした,古典的ピアノ演奏をゼロから創出することの課題について述べる。
本稿では,古典的パフォーマンスの量的構造と表現的ニュアンスの両方を効果的にキャプチャする,表現的複合語(ECP)表現を提案する。
そこで本研究では,Vector Quantized Variational AutoEncoder (VQ-VAE) ブランチと,Pianist の役割を果たす表現的詳細を生成するvanilla VAE ブランチという,2つのブランチを特徴とするExpressive Music Variational AutoEncoder (XMVAE) を提案する。
これらのブランチは、類似のSeq2Seqアーキテクチャで共同でトレーニングされており、マルチスケールエンコーダを利用してビートレベルのコンテキスト情報をキャプチャし、直交トランスフォーマーデコーダで効率的な複合トークンデコードを行う。
客観的評価と主観評価の両方で、XMVAEは最先端のモデルと比較すると、音質に優れた古典的なパフォーマンスを生み出すことを示した。
さらに、余分な楽譜データセットでComposerブランチを事前トレーニングすることは、大幅なパフォーマンス向上に寄与する。
関連論文リスト
- Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - PerTok: Expressive Encoding and Modeling of Symbolic Musical Ideas and Variations [0.3683202928838613]
Cadenzaは、シンボリック・ミュージック・アイデアの表現的バリエーションを予測するための、新しい多段階生成フレームワークである。
提案するフレームワークは,1)コンストラクタと2)パフォーマの2段階からなる。
我々のフレームワークはミュージシャンにインスピレーションを与える目的で設計、研究、実装されている。
論文 参考訳(メタデータ) (2024-10-02T22:11:31Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Compose & Embellish: Well-Structured Piano Performance Generation via A
Two-Stage Approach [36.49582705724548]
まずリードシートを構成する2段階のTransformerベースのフレームワークを考案し,それを伴奏と表現力のあるタッチで実装する。
目的および主観的な実験により,コンポジション・アンド・エンベリッシュは芸術の現在の状態と実演の間の構造的ギャップを半分に縮め,豊かさやコヒーレンスといった他の音楽的側面も改善することが示された。
論文 参考訳(メタデータ) (2022-09-17T01:20:59Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。