論文の概要: MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling
- arxiv url: http://arxiv.org/abs/2507.08530v1
- Date: Fri, 11 Jul 2025 12:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.349584
- Title: MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling
- Title(参考訳): MIDI-VALLE:ニューラルコーデック言語モデリングによる表現的ピアノ演奏合成の改善
- Authors: Jingjing Tang, Xin Wang, Zhe Zhang, Junichi Yamagishi, Geraint Wiggins, George Fazekas,
- Abstract要約: 音声合成のためのVALLEフレームワークであるMIDI-VALLEを提案する。
VALLEはMIDIとオーディオの両方を離散トークンとしてエンコードし、より一貫性があり堅牢なピアノ演奏のモデリングを容易にする。
評価の結果,MIDI-VALLEは最先端のベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 32.78044321881271
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating expressive audio performances from music scores requires models to capture both instrument acoustics and human interpretation. Traditional music performance synthesis pipelines follow a two-stage approach, first generating expressive performance MIDI from a score, then synthesising the MIDI into audio. However, the synthesis models often struggle to generalise across diverse MIDI sources, musical styles, and recording environments. To address these challenges, we propose MIDI-VALLE, a neural codec language model adapted from the VALLE framework, which was originally designed for zero-shot personalised text-to-speech (TTS) synthesis. For performance MIDI-to-audio synthesis, we improve the architecture to condition on a reference audio performance and its corresponding MIDI. Unlike previous TTS-based systems that rely on piano rolls, MIDI-VALLE encodes both MIDI and audio as discrete tokens, facilitating a more consistent and robust modelling of piano performances. Furthermore, the model's generalisation ability is enhanced by training on an extensive and diverse piano performance dataset. Evaluation results show that MIDI-VALLE significantly outperforms a state-of-the-art baseline, achieving over 75% lower Frechet Audio Distance on the ATEPP and Maestro datasets. In the listening test, MIDI-VALLE received 202 votes compared to 58 for the baseline, demonstrating improved synthesis quality and generalisation across diverse performance MIDI inputs.
- Abstract(参考訳): 音楽スコアから表現力のあるオーディオパフォーマンスを生成するには、楽器音響と人間の解釈の両方をキャプチャするモデルが必要である。
従来の演奏合成パイプラインは、2段階のアプローチに従っており、まず楽譜から表現力のある演奏MIDIを生成し、その後、MIDIを音声に合成する。
しかし、合成モデルは様々なMIDIソース、音楽スタイル、録音環境をまたいだ一般化に苦慮することが多い。
これらの課題に対処するために、当初、ゼロショットパーソナライズされたテキスト音声合成(TTS)のために設計された、VALLEフレームワークから適応したニューラルコーデック言語モデルMIDI-VALLEを提案する。
MIDI-to-audio合成の性能向上のために、参照オーディオ性能と対応するMIDIを条件にアーキテクチャを改良する。
従来のTTSベースのシステムとは異なり、MIDI-VALLEはMIDIとオーディオの両方を離散トークンとしてエンコードし、より一貫性があり堅牢なピアノ演奏のモデリングを容易にする。
さらに、広範かつ多様なピアノ演奏データセットのトレーニングにより、モデルの一般化能力を向上させる。
評価の結果,MIDI-VALLEは最先端のベースラインを著しく上回り,ATEPPおよびMaestroデータセット上で75%以上のFrechet Audio Distanceを達成した。
聴取試験では,MIDI-VALLEはベースライン58に対して202票を獲得した。
関連論文リスト
- Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Fine-Tuning MIDI-to-Audio Alignment using a Neural Network on Piano Roll and CQT Representations [2.3249139042158853]
本稿では,人間のピアノ演奏の音声録音と,それに対応するゆるやかなMIDIファイルとを同期させるニューラルネットワーク手法を提案する。
提案手法は,業界標準の動的時間ワープ法(DTW)よりも最大20%高いアライメント精度を実現する。
論文 参考訳(メタデータ) (2025-06-27T13:59:50Z) - The GigaMIDI Dataset with Features for Expressive Music Performance Detection [5.585625844344932]
GigaMIDIデータセットには、140万以上のユニークなMIDIファイルが含まれており、180億のMIDIノートイベントと530万のMIDIトラックが含まれている。
このGigaMIDIのキュレートされたイテレーションは、NOMMLによって検出された、GigaMIDIデータセットの31%を構成する、明示的なパフォーマンスの楽器トラックを含んでいる。
論文 参考訳(メタデータ) (2025-02-24T23:39:40Z) - Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを必要としない。
MIDIの入力に基づいて合成音声トラックを生成し、MIDIアノテーションなしでデータセットに基づいて訓練された拡散に基づく深層生成モデルで洗練する。
デジタルオーディオワークステーションの伝統的な機能と同様、音声サンプルの選択やMIDI設計を通じて音色や表現を詳細に制御することができる。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical
Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。
楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。
この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文 参考訳(メタデータ) (2021-12-17T04:15:42Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。