論文の概要: Pianist Transformer: Towards Expressive Piano Performance Rendering via Scalable Self-Supervised Pre-Training
- arxiv url: http://arxiv.org/abs/2512.02652v1
- Date: Tue, 02 Dec 2025 11:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.840666
- Title: Pianist Transformer: Towards Expressive Piano Performance Rendering via Scalable Self-Supervised Pre-Training
- Title(参考訳): Pianist Transformer: スケーラブルなセルフスーパービジョン事前トレーニングによる表現力のあるピアノパフォーマンスレンダリングを目指す
- Authors: Hong-Jie You, Jie-Jing Shao, Xiao-Wen Yang, Lin-Han Jia, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: Pianist Transformerは、音楽構造と表現の共通原則を明示的なアノテーションなしで学習するための、MIDI(Musical Instrument Digital Interface)データ表現である。
強力な客観的指標と人間レベルの主観的評価を達成する。
全体として、Pianist Transformerは、音楽領域における人間のようなパフォーマンス合成へのスケーラブルな道を確立している。
- 参考スコア(独自算出の注目度): 26.885642751756695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for expressive music performance rendering rely on supervised learning over small labeled datasets, which limits scaling of both data volume and model size, despite the availability of vast unlabeled music, as in vision and language. To address this gap, we introduce Pianist Transformer, with four key contributions: 1) a unified Musical Instrument Digital Interface (MIDI) data representation for learning the shared principles of musical structure and expression without explicit annotation; 2) an efficient asymmetric architecture, enabling longer contexts and faster inference without sacrificing rendering quality; 3) a self-supervised pre-training pipeline with 10B tokens and 135M-parameter model, unlocking data and model scaling advantages for expressive performance rendering; 4) a state-of-the-art performance model, which achieves strong objective metrics and human-level subjective ratings. Overall, Pianist Transformer establishes a scalable path toward human-like performance synthesis in the music domain.
- Abstract(参考訳): 既存の表現力のある音楽パフォーマンスレンダリングの方法は、視覚や言語のような膨大な未ラベルの音楽が利用可能であるにもかかわらず、データボリュームとモデルサイズの両方のスケーリングを制限する小さなラベル付きデータセットよりも教師あり学習に依存している。
このギャップに対処するために、Pianist Transformerを紹介します。
1) 明示的な注釈なしで音楽構造及び表現の共有原則を学習するための統一された音楽機器デジタルインタフェース(MIDI)データ表現
2) レンダリング品質を犠牲にすることなく、より長いコンテキストと高速な推論を可能にする効率的な非対称アーキテクチャ。
3) 10Bトークンと135Mパラメータモデルを備えた自己教師付き事前トレーニングパイプライン。
4) 高い客観的指標と人間レベルの主観的評価を達成できる最先端のパフォーマンスモデル。
全体として、Pianist Transformerは、音楽領域における人間のようなパフォーマンス合成へのスケーラブルな道を確立している。
関連論文リスト
- SyMuPe: Affective and Controllable Symbolic Music Performance [0.00746020873338928]
我々は、感情的かつ制御可能なピアノ演奏モデルの開発と訓練のための新しいフレームワークであるSyMuPeを提案する。
当社のフラッグシップモデルであるPanoFlowでは,さまざまなマルチマスクパフォーマンス向上タスクを解決するために,条件付きフローマッチングをトレーニングしています。
感情制御では,異なるテキスト条件下で生成されたサンプルを提示・分析する。
論文 参考訳(メタデータ) (2025-11-05T12:42:08Z) - Two Web Toolkits for Multimodal Piano Performance Dataset Acquisition and Fingering Annotation [56.318475235705954]
2つのグラフィカルユーザインタフェース(GUI)からなる統合Webツールキットを提案する。
PiaRecは、オーディオ、ビデオ、MIDI、パフォーマンスメタデータの同時取得をサポートする。
ASDFは、視覚データからパフォーマーフィンガーの効率的なアノテーションを可能にする。
論文 参考訳(メタデータ) (2025-09-18T17:59:24Z) - Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music [47.95375326361059]
本稿では,新しいシンボリック音楽生成フレームワークであるAmadeusを紹介する。
アマデウスは、ノート配列の自己回帰モデルと属性の双方向離散拡散モデルを採用している。
非条件およびテキスト条件付き生成タスクについて広範な実験を行う。
論文 参考訳(メタデータ) (2025-08-28T11:15:44Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - FürElise: Capturing and Physically Synthesizing Hand Motions of Piano Performance [15.909113091360206]
ピアノ演奏を正確に再現する洗練された手の動きモデルは、キャラクターアニメーション、エンボディAI、バイオメカニクス、VR/ARに幅広い応用がある。
本稿では,153曲のクラシック音楽を演奏する15人のエリートレベルのピアニストによる,約10時間の3D手の動きとオーディオを含む,第1世代の大規模データセットを構築する。
論文 参考訳(メタデータ) (2024-10-08T08:21:05Z) - End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - Reconstructing Human Expressiveness in Piano Performances with a
Transformer Network [1.5883812630616518]
多層双方向トランスフォーマーエンコーダを用いたピアノ演奏における人間の表現性再構築手法を提案する。
ニューラルネットワークのトレーニングにおいて、精度の高いキャプチャとスコア整合性能データの必要性に対処するために、既存の転写モデルから得られた書き起こしスコアを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2023-06-09T17:05:53Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。