論文の概要: Real-time Timbre Transfer and Sound Synthesis using DDSP
- arxiv url: http://arxiv.org/abs/2103.07220v1
- Date: Fri, 12 Mar 2021 11:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 19:04:52.437018
- Title: Real-time Timbre Transfer and Sound Synthesis using DDSP
- Title(参考訳): DDSPを用いたリアルタイムタイミング転送と音合成
- Authors: Francesco Ganis, Erik Frej Knudesn, S{\o}ren V. K. Lyster, Robin
Otterbein, David S\"udholt and Cumhur Erkut
- Abstract要約: プラグインとして仮想シンセサイザーに埋め込まれたMagentaPライブラリのリアルタイム実装を紹介します。
実楽器の学習表現から任意の音響入力への音色伝達とMIDIによるこれらのモデル制御に着目した。
ニューラルネットワークによって推定されるパラメータの処理と操作に使用できる直感的な高レベル制御のためのGUIを開発した。
- 参考スコア(独自算出の注目度): 1.7942265700058984
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural audio synthesis is an actively researched topic, having yielded a wide
range of techniques that leverages machine learning architectures. Google
Magenta elaborated a novel approach called Differential Digital Signal
Processing (DDSP) that incorporates deep neural networks with preconditioned
digital signal processing techniques, reaching state-of-the-art results
especially in timbre transfer applications. However, most of these techniques,
including the DDSP, are generally not applicable in real-time constraints,
making them ineligible in a musical workflow. In this paper, we present a
real-time implementation of the DDSP library embedded in a virtual synthesizer
as a plug-in that can be used in a Digital Audio Workstation. We focused on
timbre transfer from learned representations of real instruments to arbitrary
sound inputs as well as controlling these models by MIDI. Furthermore, we
developed a GUI for intuitive high-level controls which can be used for
post-processing and manipulating the parameters estimated by the neural
network. We have conducted a user experience test with seven participants
online. The results indicated that our users found the interface appealing,
easy to understand, and worth exploring further. At the same time, we have
identified issues in the timbre transfer quality, in some components we did not
implement, and in installation and distribution of our plugin. The next
iteration of our design will address these issues. Our real-time MATLAB and
JUCE implementations are available at https://github.com/SMC704/juce-ddsp and
https://github.com/SMC704/matlab-ddsp , respectively.
- Abstract(参考訳): ニューラルオーディオ合成は積極的に研究されているトピックであり、機械学習アーキテクチャを活用した幅広い技術を生み出した。
google magenta氏は、ディープニューラルネットワークとプリコンディショニングされたデジタル信号処理技術を組み込んだ差分デジタル信号処理(ddsp)と呼ばれる新しいアプローチを詳しく説明した。
しかし、DDSPを含むこれらの技術の多くは、一般にリアルタイムの制約には適用されず、音楽のワークフローでは無視できる。
本稿では,デジタルオーディオワークステーションで使用可能なプラグインとして,仮想シンセサイザーに埋め込まれたDDSPライブラリのリアルタイム実装について述べる。
実楽器の学習表現から任意の音響入力への音色伝達とMIDIによるこれらのモデル制御に着目した。
さらに,ニューラルネットワークによって推定されるパラメータの処理や操作に使用可能な,直感的な高レベル制御のためのGUIを開発した。
7名の参加者によるユーザー体験テストをオンラインで実施しました。
その結果,ユーザインターフェースが魅力的で,理解しやすく,さらに探究する価値があることがわかった。
同時に、私たちは、音色転送の品質、実装していないいくつかのコンポーネント、プラグインのインストールと配布の問題を特定しました。
デザインの次のイテレーションでは、これらの問題に対処します。
リアルタイムMATLABとJUCEの実装は、https://github.com/SMC704/juce-ddspとhttps://github.com/SMC704/matlab-ddspで利用できます。
関連論文リスト
- TIM: A Time Interval Machine for Audio-Visual Action Recognition [64.24297230981168]
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。
本稿では,TIM (Time Interval Machine) を提案する。
我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
論文 参考訳(メタデータ) (2024-04-08T14:30:42Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - DDX7: Differentiable FM Synthesis of Musical Instrument Sounds [7.829520196474829]
微分可能ディジタル信号処理(DDSP)により、ディープニューラルネットワーク(DNN)によるニュアンスドオーディオレンダリングが可能になった
楽器音のニューラルFM再生のための軽量アーキテクチャDX7(DDX7)を提案する。
論文 参考訳(メタデータ) (2022-08-12T08:39:45Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Streamable Neural Audio Synthesis With Non-Causal Convolutions [1.8275108630751844]
非因果的ストリーミングモデルを生成するための新しい手法を提案する。
これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。
並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
論文 参考訳(メタデータ) (2022-04-14T16:00:32Z) - Latent Space Explorations of Singing Voice Synthesis using DDSP [2.7920304852537527]
機械学習ベースの歌声モデルは、大きなデータセットと長いトレーニング時間を必要とする。
ピッチと振幅のみを条件とした歌のような発声を出力できる軽量アーキテクチャを提案します。
新しいモデルをトレーニングし、実験するための2つのゼロ設定ツールを提供する。
論文 参考訳(メタデータ) (2021-03-12T10:38:29Z) - End-to-End Object Detection with Fully Convolutional Network [71.56728221604158]
エンドツーエンド検出を実現するために,分類のための予測対応ワン・ツー・ワン (POTO) ラベルの割り当てを導入する。
局所領域における畳み込みの判別性を向上させるために, 簡易な3次元maxフィルタ(3dmf)を提案する。
エンドツーエンドのフレームワークは,COCOおよびCrowdHumanデータセット上のNMSを用いて,最先端の多くの検出器と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-07T09:14:55Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - DDSP: Differentiable Digital Signal Processing [13.448630251745163]
本稿では,従来の信号処理要素を深層学習手法と直接統合できるDDSPライブラリについて紹介する。
我々は、大規模な自己回帰モデルや敵の損失を必要とせずに、高忠実度生成を実現する。
Pは、ディープラーニングの利点を犠牲にすることなく、生成モデリングに対する解釈可能でモジュラーなアプローチを可能にします。
論文 参考訳(メタデータ) (2020-01-14T06:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。