論文の概要: SyMuPe: Affective and Controllable Symbolic Music Performance
- arxiv url: http://arxiv.org/abs/2511.03425v1
- Date: Wed, 05 Nov 2025 12:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.428913
- Title: SyMuPe: Affective and Controllable Symbolic Music Performance
- Title(参考訳): SyMuPe: 効果があり、コントロール可能なシンボリック・ミュージック・パフォーマンス
- Authors: Ilya Borovik, Dmitrii Gavrilev, Vladimir Viro,
- Abstract要約: 我々は、感情的かつ制御可能なピアノ演奏モデルの開発と訓練のための新しいフレームワークであるSyMuPeを提案する。
当社のフラッグシップモデルであるPanoFlowでは,さまざまなマルチマスクパフォーマンス向上タスクを解決するために,条件付きフローマッチングをトレーニングしています。
感情制御では,異なるテキスト条件下で生成されたサンプルを提示・分析する。
- 参考スコア(独自算出の注目度): 0.00746020873338928
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Emotions are fundamental to the creation and perception of music performances. However, achieving human-like expression and emotion through machine learning models for performance rendering remains a challenging task. In this work, we present SyMuPe, a novel framework for developing and training affective and controllable symbolic piano performance models. Our flagship model, PianoFlow, uses conditional flow matching trained to solve diverse multi-mask performance inpainting tasks. By design, it supports both unconditional generation and infilling of music performance features. For training, we use a curated, cleaned dataset of 2,968 hours of aligned musical scores and expressive MIDI performances. For text and emotion control, we integrate a piano performance emotion classifier and tune PianoFlow with the emotion-weighted Flan-T5 text embeddings provided as conditional inputs. Objective and subjective evaluations against transformer-based baselines and existing models show that PianoFlow not only outperforms other approaches, but also achieves performance quality comparable to that of human-recorded and transcribed MIDI samples. For emotion control, we present and analyze samples generated under different text conditioning scenarios. The developed model can be integrated into interactive applications, contributing to the creation of more accessible and engaging music performance systems.
- Abstract(参考訳): 感情は音楽演奏の創造と知覚の基礎である。
しかしながら、パフォーマンスレンダリングのための機械学習モデルによる人間のような表現と感情の実現は、依然として困難な課題である。
本稿では,情緒的かつ制御可能なシンボリックピアノ演奏モデルの開発と訓練のための新しいフレームワークであるSyMuPeを紹介する。
当社のフラッグシップモデルであるPanoFlowでは,さまざまなマルチマスクパフォーマンス向上タスクを解決するために,条件付きフローマッチングをトレーニングしています。
設計上は、無条件生成と音楽演奏機能の充実の両方をサポートする。
トレーニングには、2,968時間のアライメントされた楽譜と表現力のあるMIDIパフォーマンスのキュレートされたクリーンデータセットを使用する。
テキストと感情制御のために、ピアノ演奏感情分類器を統合し、条件入力として提供される感情重み付きFlan-T5テキスト埋め込みにピアノフローをチューニングする。
変圧器ベースラインおよび既存モデルに対する客観的・主観的な評価は、ピアノフローが他のアプローチよりも優れているだけでなく、人間記録および転写MIDIサンプルに匹敵する性能も達成していることを示している。
感情制御では,異なるテキスト条件下で生成されたサンプルを提示・分析する。
開発されたモデルはインタラクティブなアプリケーションに統合することができ、よりアクセシブルで魅力的な音楽パフォーマンスシステムの構築に寄与する。
関連論文リスト
- The Ghost in the Keys: A Disklavier Demo for Human-AI Musical Co-Creativity [59.78509280246215]
Aria-Duetは、人間のピアニストと最先端のジェネレーティブモデルであるAriaのリアルタイム音楽デュエットを容易にするインタラクティブシステムである。
音楽学的な観点からシステムのアウトプットを分析し,そのモデルがスタイリスティックなセマンティクスを維持でき,コヒーレントなフレーズのアイデアを発達させることができることを発見した。
論文 参考訳(メタデータ) (2025-11-03T15:26:01Z) - Video Soundtrack Generation by Aligning Emotions and Temporal Boundaries [1.1743167854433303]
EMSYNCはビデオベースのシンボリック音楽生成モデルであり、音楽とビデオの感情的内容と時間的境界を一致させる。
本研究では,音節をシーンカットで予測・調整できる新しい時間的条件付け機構である境界オフセットを導入する。
主観的聴取テストにおいて、EMSYNCは、音楽理論を意識した参加者だけでなく、一般の聴取者に対しても、すべての主観的尺度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2025-02-14T13:32:59Z) - MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation [19.139752434303688]
感情的な側面を管理することは、自動音楽生成の課題である。
本稿では,ピアノ演奏における感情のゆがみについて,2段階の枠組みを用いて検討する。
論文 参考訳(メタデータ) (2024-07-30T16:29:28Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Anticipatory Music Transformer [60.15347393822849]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical
Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。
楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。
この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文 参考訳(メタデータ) (2021-12-17T04:15:42Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。