論文の概要: MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical
Modeling
- arxiv url: http://arxiv.org/abs/2112.09312v1
- Date: Fri, 17 Dec 2021 04:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 02:36:22.596405
- Title: MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical
Modeling
- Title(参考訳): MIDI-DDSP:階層的モデリングによる演奏の詳細な制御
- Authors: Yusong Wu, Ethan Manilow, Yi Deng, Rigel Swavely, Kyle Kastner, Tim
Cooijmans, Aaron Courville, Cheng-Zhi Anna Huang, Jesse Engel
- Abstract要約: 音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。
楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。
この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
- 参考スコア(独自算出の注目度): 6.256118777336895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Musical expression requires control of both what notes are played, and how
they are performed. Conventional audio synthesizers provide detailed expressive
controls, but at the cost of realism. Black-box neural audio synthesis and
concatenative samplers can produce realistic audio, but have few mechanisms for
control. In this work, we introduce MIDI-DDSP a hierarchical model of musical
instruments that enables both realistic neural audio synthesis and detailed
user control. Starting from interpretable Differentiable Digital Signal
Processing (DDSP) synthesis parameters, we infer musical notes and high-level
properties of their expressive performance (such as timbre, vibrato, dynamics,
and articulation). This creates a 3-level hierarchy (notes, performance,
synthesis) that affords individuals the option to intervene at each level, or
utilize trained priors (performance given notes, synthesis given performance)
for creative assistance. Through quantitative experiments and listening tests,
we demonstrate that this hierarchy can reconstruct high-fidelity audio,
accurately predict performance attributes for a note sequence, independently
manipulate the attributes of a given performance, and as a complete system,
generate realistic audio from a novel note sequence. By utilizing an
interpretable hierarchy, with multiple levels of granularity, MIDI-DDSP opens
the door to assistive tools to empower individuals across a diverse range of
musical experience.
- Abstract(参考訳): 音楽表現は、演奏される音と演奏方法の両方を制御する必要がある。
従来のオーディオシンセサイザーは詳細な表現制御を提供するが、リアリズムのコストがかかる。
black-box neural audio synthesis and concatenative samplerは現実的なオーディオを生成できるが、制御のメカニズムは少ない。
本研究では,MIDI-DDSPを楽器の階層モデルとして導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。
解釈可能な微分可能ディジタル信号処理(DDSP)合成パラメータから始め、音符とそれらの表現性能(音色、ビブラート、ダイナミクス、調音など)の高レベル特性を推定する。
これにより、3レベル階層(ノート、パフォーマンス、合成)が作成され、各レベルに介入するオプションや、トレーニング済みの事前(パフォーマンス、パフォーマンス、パフォーマンス)を創造的な支援に利用することができる。
定量的実験とリスニングテストにより,この階層が高忠実度音声を再構築し,音符列の性能特性を正確に予測し,与えられた演奏特性を独立に操作し,完全なシステムとして,新たな音符列から現実的な音声を生成することを実証した。
様々なレベルの粒度を持つ解釈可能な階層を利用することで、MIDI-DDSPは様々な音楽経験を個人に与える支援ツールの扉を開く。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Generative Modelling for Controllable Audio Synthesis of Expressive
Piano Performance [6.531546527140474]
ガウス混合変分オートエンコーダ(GM-VAE)に基づく可制御型ニューラルオーディオシンセサイザー
そこで本研究では,モデルが音声に対してきめ細かな形態変化を適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-06-16T12:54:41Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。