論文の概要: Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription
- arxiv url: http://arxiv.org/abs/2509.23878v1
- Date: Sun, 28 Sep 2025 13:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.502519
- Title: Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription
- Title(参考訳): ピアノ連作・転写における楽譜内容と演奏スタイルの相違
- Authors: Wei Zeng, Junchuan Zhao, Ye Wang,
- Abstract要約: EPR(Expressive Performance rendering)とAPT(Automatic piano transcription)は、音楽情報検索において基本的な逆のタスクである。
本稿では,EPRとAPTを協調的にモデル化する統合フレームワークを提案する。
我々のフレームワークは変換器に基づくシーケンス・ツー・シーケンスアーキテクチャに基づいて構築されており、シーケンス・アライン・データのみを用いて訓練されている。
- 参考スコア(独自算出の注目度): 7.234331884289347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressive performance rendering (EPR) and automatic piano transcription (APT) are fundamental yet inverse tasks in music information retrieval: EPR generates expressive performances from symbolic scores, while APT recovers scores from performances. Despite their dual nature, prior work has addressed them independently. In this paper we propose a unified framework that jointly models EPR and APT by disentangling note-level score content and global performance style representations from both paired and unpaired data. Our framework is built on a transformer-based sequence-to-sequence architecture and is trained using only sequence-aligned data, without requiring fine-grained note-level alignment. To automate the rendering process while ensuring stylistic compatibility with the score, we introduce an independent diffusion-based performance style recommendation module that generates style embeddings directly from score content. This modular component supports both style transfer and flexible rendering across a range of expressive styles. Experimental results from both objective and subjective evaluations demonstrate that our framework achieves competitive performance on EPR and APT tasks, while enabling effective content-style disentanglement, reliable style transfer, and stylistically appropriate rendering. Demos are available at https://jointpianist.github.io/epr-apt/
- Abstract(参考訳): EPR(Expressive Performance rendering)とAPT(Automatic piano transcription)は、音楽情報検索における基本的な逆のタスクである: EPRはシンボリックスコアから表現的なパフォーマンスを生成し、APTは演奏からスコアを回復する。
その双対性にもかかわらず、以前の作業は独立してそれらに対処してきた。
本稿では,ペアデータとペアデータの両方から,ノートレベルのスコアコンテンツとグローバルなパフォーマンススタイルの表現を分離することで,EPRとAPTを協調的にモデル化する統合フレームワークを提案する。
本フレームワークはトランスをベースとしたシーケンス・ツー・シーケンスアーキテクチャ上に構築されており,微粒なノートレベルのアライメントを必要とせず,シーケンス・アライメントのデータのみを用いてトレーニングされている。
スコアとのスタイリスティックな互換性を確保しつつ、レンダリングプロセスを自動化するため、スコアコンテンツから直接スタイル埋め込みを生成する独立した拡散ベースのパフォーマンススタイルレコメンデーションモジュールを導入する。
このモジュールコンポーネントは、様々な表現力のあるスタイルで、スタイル転送とフレキシブルなレンダリングの両方をサポートする。
客観評価と主観評価の両方による実験結果から,EPRおよびAPTタスクにおいて,効果的なコンテンツスタイルの切り離し,信頼性の高いスタイル転送,スタイリスティックな適切なレンダリングを実現するとともに,我々のフレームワークが競争性能を達成することが示された。
デモはhttps://jointpianist.github.io/epr-apt/で公開されている。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset [89.37514696019484]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。
私たちの作業は、好みのデータセット設計をアドホックなスケーリングからコンポーネント対応の最適化にシフトします。
論文 参考訳(メタデータ) (2025-04-04T17:33:07Z) - End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - PEM: Prototype-based Efficient MaskFormer for Image Segmentation [10.795762739721294]
最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。
複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
論文 参考訳(メタデータ) (2024-02-29T18:21:54Z) - Integrative Feature and Cost Aggregation with Transformers for Dense
Correspondence [63.868905184847954]
現在の最先端はTransformerベースのアプローチで、機能記述子やコストボリュームアグリゲーションに重点を置いている。
本稿では,両形態のアグリゲーションを相互にインターリーブするトランスフォーマーネットワークを提案する。
提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-19T03:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。