論文の概要: Differentiable Digital Signal Processing Mixture Model for Synthesis
Parameter Extraction from Mixture of Harmonic Sounds
- arxiv url: http://arxiv.org/abs/2202.00200v1
- Date: Tue, 1 Feb 2022 03:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 00:00:20.873790
- Title: Differentiable Digital Signal Processing Mixture Model for Synthesis
Parameter Extraction from Mixture of Harmonic Sounds
- Title(参考訳): 高調波混合音からの合成パラメータ抽出のための可変ディジタル信号処理混合モデル
- Authors: Masaya Kawamura, Tomohiko Nakamura, Daichi Kitamura, Hiroshi
Saruwatari, Yu Takahashi, Kazunobu Kondo
- Abstract要約: DDSPオートエンコーダ(DDSP Autoencoder)は、ディープニューラルネットワーク(DNN)とスペクトルモデリング合成を組み合わせた音響である。
入力音から抽出した基本周波数,音色,大音量(合成パラメータ)を変化させることで,音を柔軟に編集することができる。
モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニックの混合音を扱えない。
- 参考スコア(独自算出の注目度): 29.012177604120048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A differentiable digital signal processing (DDSP) autoencoder is a musical
sound synthesizer that combines a deep neural network (DNN) and spectral
modeling synthesis. It allows us to flexibly edit sounds by changing the
fundamental frequency, timbre feature, and loudness (synthesis parameters)
extracted from an input sound. However, it is designed for a monophonic
harmonic sound and cannot handle mixtures of harmonic sounds. In this paper, we
propose a model (DDSP mixture model) that represents a mixture as the sum of
the outputs of multiple pretrained DDSP autoencoders. By fitting the output of
the proposed model to the observed mixture, we can directly estimate the
synthesis parameters of each source. Through synthesis parameter extraction
experiments, we show that the proposed method has high and stable performance
compared with a straightforward method that applies the DDSP autoencoder to the
signals separated by an audio source separation method.
- Abstract(参考訳): 微分可能なデジタル信号処理(ddsp)オートエンコーダ(英: differentiable digital signal processing)は、ディープニューラルネットワーク(dnn)とスペクトルモデリング合成を組み合わせた音楽音響合成器である。
入力音から抽出した基本周波数,音色特徴,ラウドネス(合成パラメータ)を変化させることで,柔軟に音を編集することができる。
しかし、モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニック・サウンドの混合を扱えない。
本稿では,複数の事前学習されたDDSPオートエンコーダの出力の和として混合を表現するモデル(DDSP混合モデル)を提案する。
提案モデルの出力を観測混合物に適合させることにより、各ソースの合成パラメータを直接推定することができる。
合成パラメータ抽出実験により, ddspオートエンコーダを音源分離法で分離した信号に適用する簡単な手法と比較して, 提案手法は高い安定性能を有することを示す。
関連論文リスト
- Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Differentiable WORLD Synthesizer-based Neural Vocoder With Application
To End-To-End Audio Style Transfer [6.29475963948119]
本稿では,WORLDシンセサイザーを試作し,エンド・ツー・エンドのオーディオ・スタイル・トランスファー・タスクでの利用を実証する。
ベースライン微分可能シンセサイザーはモデルパラメータを持たないが、十分な品質合成が得られる。
別の微分可能なアプローチでは、ソーススペクトルの抽出を直接考慮し、自然性を改善することができる。
論文 参考訳(メタデータ) (2022-08-15T15:48:36Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。