論文の概要: Deep Performer: Score-to-Audio Music Performance Synthesis
- arxiv url: http://arxiv.org/abs/2202.06034v1
- Date: Sat, 12 Feb 2022 10:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 18:16:45.774776
- Title: Deep Performer: Score-to-Audio Music Performance Synthesis
- Title(参考訳): ディープパフォーマー:スコアからオーディオへの演奏合成
- Authors: Hao-Wen Dong, Cong Zhou, Taylor Berg-Kirkpatrick, Julian McAuley
- Abstract要約: Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
- 参考スコア(独自算出の注目度): 30.95307878579825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music performance synthesis aims to synthesize a musical score into a natural
performance. In this paper, we borrow recent advances in text-to-speech
synthesis and present the Deep Performer -- a novel system for score-to-audio
music performance synthesis. Unlike speech, music often contains polyphony and
long notes. Hence, we propose two new techniques for handling polyphonic inputs
and providing a fine-grained conditioning in a transformer encoder-decoder
model. To train our proposed system, we present a new violin dataset consisting
of paired recordings and scores along with estimated alignments between them.
We show that our proposed model can synthesize music with clear polyphony and
harmonic structures. In a listening test, we achieve competitive quality
against the baseline model, a conditional generative audio model, in terms of
pitch accuracy, timbre and noise level. Moreover, our proposed model
significantly outperforms the baseline on an existing piano dataset in overall
quality.
- Abstract(参考訳): 音楽演奏合成は、楽譜を自然な演奏に合成することを目的としている。
本稿では,テキスト対音声合成の最近の進歩を借用し,スコア対音声音楽演奏合成のための新しいシステムである深層演奏者を提案する。
音声とは異なり、音楽はしばしばポリフォニーと長い音符を含んでいる。
そこで本研究では,ポリフォニック入力を扱うための2つの新しい手法を提案し,変換器エンコーダ・デコーダモデルに微細な条件付けを提供する。
提案するシステムをトレーニングするために,記録とスコアのペアによる新しいバイオリンデータセットと,それら間のアライメントを推定する。
提案するモデルは、明瞭なポリフォニーと調和構造を持つ楽曲を合成できることを示す。
聴取テストでは,音のピッチ精度,音色,雑音レベルの観点から,条件付き生成音声モデルであるベースラインモデルと競合する品質を実現する。
さらに,提案モデルでは,既存のピアノデータセットのベースラインを全体の品質で大幅に上回っている。
関連論文リスト
- Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific
Input Representation and Diffusion Outpainting [9.812666469580872]
楽器への入力表現をカスタマイズした音響ギター音響合成モデルを提案する。
本研究では,長期的整合性のある音声を生成する拡散型アウトペイントを用いて提案手法を実装した。
提案モデルはベースラインモデルよりも音質が高く,よりリアルな音色を生成する。
論文 参考訳(メタデータ) (2024-01-24T14:44:01Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Generative Modelling for Controllable Audio Synthesis of Expressive
Piano Performance [6.531546527140474]
ガウス混合変分オートエンコーダ(GM-VAE)に基づく可制御型ニューラルオーディオシンセサイザー
そこで本研究では,モデルが音声に対してきめ細かな形態変化を適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-06-16T12:54:41Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。