論文の概要: Multi-instrument Music Synthesis with Spectrogram Diffusion
- arxiv url: http://arxiv.org/abs/2206.05408v1
- Date: Sat, 11 Jun 2022 03:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 18:25:59.418117
- Title: Multi-instrument Music Synthesis with Spectrogram Diffusion
- Title(参考訳): スペクトログラム拡散を用いたマルチインストゥルメント音楽合成
- Authors: Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Josh
Gardner, Ethan Manilow, Jesse Engel
- Abstract要約: 我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
- 参考スコア(独自算出の注目度): 19.81982315173444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An ideal music synthesizer should be both interactive and expressive,
generating high-fidelity audio in realtime for arbitrary combinations of
instruments and notes. Recent neural synthesizers have exhibited a tradeoff
between domain-specific models that offer detailed control of only specific
instruments, or raw waveform models that can train on all of music but with
minimal control and slow generation.
In this work, we focus on a middle ground of neural synthesizers that can
generate audio from MIDI sequences with arbitrary combinations of instruments
in realtime. This enables training on a wide range of transcription datasets
with a single model, which in turn offers note-level control of composition and
instrumentation across a wide range of instruments.
We use a simple two-stage process: MIDI to spectrograms with an
encoder-decoder Transformer, then spectrograms to audio with a generative
adversarial network (GAN) spectrogram inverter. We compare training the decoder
as an autoregressive model and as a Denoising Diffusion Probabilistic Model
(DDPM) and find that the DDPM approach is superior both qualitatively and as
measured by audio reconstruction and Fr\'echet distance metrics.
Given the interactivity and generality of this approach, we find this to be a
promising first step towards interactive and expressive neural synthesis for
arbitrary combinations of instruments and notes.
- Abstract(参考訳): 理想的な音楽シンセサイザーは対話的で表現力があり、楽器と音符の任意の組み合わせでリアルタイムに高忠実なオーディオを生成する。
最近のニューラルシンセサイザーは、特定の楽器のみを詳細に制御するドメイン固有モデルと、すべての音楽で訓練できるが最小限の制御と遅い生成が可能な生波形モデルとのトレードオフを示した。
本研究では,midiシーケンスから任意の楽器の組み合わせでリアルタイムに音声を生成できるニューラルシンセサイザーの中間領域に着目した。
これにより、1つのモデルで幅広い書き起こしデータセットのトレーニングが可能になり、幅広い楽器の合成とインスツルメンテーションをノートレベルで制御することができる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
自動回帰モデルとDDPM(Denoising Diffusion Probabilistic Model)としてデコーダのトレーニングを比較し,音像再構成とFr'echet距離測定により,DDPMのアプローチが質的にも優れていることを確認した。
このアプローチの相互作用性と一般性を考えると、楽器と音符の任意の組み合わせに対する対話的で表現力のあるニューラル合成への第一歩として期待できる。
関連論文リスト
- Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound
Synthesis based on Frequency Modulation [38.00669627261736]
我々は、NAS(Neural Architecture Search)を採用して、差別化可能な周波数変調(FM)シンセサイザーを構築するNAS-FM'を提案する。
解釈可能な制御を持つチューナブルシンセサイザーは、事前の知識なしに音から自動的に開発することができる。
論文 参考訳(メタデータ) (2023-05-22T09:46:10Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Synthesizer: Rethinking Self-Attention in Transformer Models [93.08171885200922]
ドット積の自己アテンションは、最先端のトランスフォーマーモデルでは不可欠である。
本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2020-05-02T08:16:19Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。