論文の概要: DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2206.14723v1
- Date: Wed, 29 Jun 2022 15:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 22:24:59.595670
- Title: DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks
- Title(参考訳): drumgan vst: 自動エンコード生成広告ネットワークを用いたドラム音声分析/合成用プラグイン
- Authors: Javier Nistal, Cyran Aouameur, Ithan Velarde, and Stefan Lattner
- Abstract要約: 本稿では、DrumGAN VSTについて述べる。DrumGAN VSTは、ジェネレーティブ・アドリアル・ネットワークを用いてドラム音を合成するためのプラグインである。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜伏空間に音をマッピングする符号化ニューラルネットワークを備えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contemporary popular music production, drum sound design is commonly
performed by cumbersome browsing and processing of pre-recorded samples in
sound libraries. One can also use specialized synthesis hardware, typically
controlled through low-level, musically meaningless parameters. Today, the
field of Deep Learning offers methods to control the synthesis process via
learned high-level features and allows generating a wide variety of sounds. In
this paper, we present DrumGAN VST, a plugin for synthesizing drum sounds using
a Generative Adversarial Network. DrumGAN VST operates on 44.1 kHz sample-rate
audio, offers independent and continuous instrument class controls, and
features an encoding neural network that maps sounds into the GAN's latent
space, enabling resynthesis and manipulation of pre-existing drum sounds. We
provide numerous sound examples and a demo of the proposed VST plugin.
- Abstract(参考訳): 現代のポピュラー音楽制作において、ドラムサウンドデザインは、サウンドライブラリーで予め録音されたサンプルのブラウジングと処理が面倒なことで一般的に行われている。
また、通常低レベルで音楽的な意味のないパラメータで制御される特殊な合成ハードウェアを使うこともできる。
今日、Deep Learningの分野は、学習されたハイレベルな特徴によって合成プロセスを制御する方法を提供し、様々な音を生成することができる。
本稿では,生成型逆ネットワークを用いたドラム音合成用プラグインであるdrumgan vstを提案する。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜在空間に音をマッピングし、既存のドラム音の再生と操作を可能にする符号化ニューラルネットワークを備えている。
多数のサウンドサンプルと提案したVSTプラグインのデモを提供する。
関連論文リスト
- DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Toward Deep Drum Source Separation [55.801504997501084]
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
論文 参考訳(メタデータ) (2023-12-15T10:23:07Z) - SynthScribe: Deep Multimodal Tools for Synthesizer Sound Retrieval and
Exploration [21.473019531697062]
マルチモーダルディープラーニングを用いて,ユーザの意図をはるかに高いレベルで表現できるフルスタックシステムを実装した。
我々は,1)既存の音を探索すること,2)全く新しい音を作り出すこと,3)所定の音に意味のある修正を加えること,など,様々な課題に対処する機能を実装している。
論文 参考訳(メタデータ) (2023-12-07T20:40:36Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - SerumRNN: Step by Step Audio VST Effect Programming [18.35125491671331]
SerumRNNは、ユーザーの入力音声を目的の音声に変更するためのオーディオエフェクトを適用するためのステップバイステップの指示を提供するシステムです。
その結果、SerumRNNはさまざまなオーディオエフェクトとシンセサイザープリセットに有用なフィードバックを提供することができます。
論文 参考訳(メタデータ) (2021-04-08T16:32:14Z) - White-box Audio VST Effect Programming [18.35125491671331]
ユーザの音声信号を所望の音に変化させるために、音声効果を適用するためのステップバイステップの指示を提供するホワイトボックス反復システムを提案する。
以上の結果から,本システムは様々な音響効果やシンセサイザー・プリセットに対する有用なフィードバックを一貫して提供できることが示唆された。
論文 参考訳(メタデータ) (2021-02-05T13:45:17Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。