論文の概要: DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2206.14723v1
- Date: Wed, 29 Jun 2022 15:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 22:24:59.595670
- Title: DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks
- Title(参考訳): drumgan vst: 自動エンコード生成広告ネットワークを用いたドラム音声分析/合成用プラグイン
- Authors: Javier Nistal, Cyran Aouameur, Ithan Velarde, and Stefan Lattner
- Abstract要約: 本稿では、DrumGAN VSTについて述べる。DrumGAN VSTは、ジェネレーティブ・アドリアル・ネットワークを用いてドラム音を合成するためのプラグインである。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜伏空間に音をマッピングする符号化ニューラルネットワークを備えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contemporary popular music production, drum sound design is commonly
performed by cumbersome browsing and processing of pre-recorded samples in
sound libraries. One can also use specialized synthesis hardware, typically
controlled through low-level, musically meaningless parameters. Today, the
field of Deep Learning offers methods to control the synthesis process via
learned high-level features and allows generating a wide variety of sounds. In
this paper, we present DrumGAN VST, a plugin for synthesizing drum sounds using
a Generative Adversarial Network. DrumGAN VST operates on 44.1 kHz sample-rate
audio, offers independent and continuous instrument class controls, and
features an encoding neural network that maps sounds into the GAN's latent
space, enabling resynthesis and manipulation of pre-existing drum sounds. We
provide numerous sound examples and a demo of the proposed VST plugin.
- Abstract(参考訳): 現代のポピュラー音楽制作において、ドラムサウンドデザインは、サウンドライブラリーで予め録音されたサンプルのブラウジングと処理が面倒なことで一般的に行われている。
また、通常低レベルで音楽的な意味のないパラメータで制御される特殊な合成ハードウェアを使うこともできる。
今日、Deep Learningの分野は、学習されたハイレベルな特徴によって合成プロセスを制御する方法を提供し、様々な音を生成することができる。
本稿では,生成型逆ネットワークを用いたドラム音合成用プラグインであるdrumgan vstを提案する。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜在空間に音をマッピングし、既存のドラム音の再生と操作を可能にする符号化ニューラルネットワークを備えている。
多数のサウンドサンプルと提案したVSTプラグインのデモを提供する。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを使わずに開発することができる。
まず、MIDI入力に基づいて結合的な合成を行い、音声のみのデータセットに基づいて訓練された拡散に基づく深層生成モデルを用いて、結果のオーディオをリアルなトラックに洗練する。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - Synthesizer Sound Matching Using Audio Spectrogram Transformers [2.5944208050492183]
音声スペクトログラム変換器を用いた合成音声マッチングモデルを提案する。
本モデルでは,16個のパラメータの集合から生成されたサンプルのパラメータを再構成可能であることを示す。
また、音声の模倣をエミュレートする際、ドメイン外モデルの性能を示す音声例も提供する。
論文 参考訳(メタデータ) (2024-07-23T16:58:14Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Toward Deep Drum Source Separation [52.01259769265708]
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
論文 参考訳(メタデータ) (2023-12-15T10:23:07Z) - SynthScribe: Deep Multimodal Tools for Synthesizer Sound Retrieval and
Exploration [21.473019531697062]
マルチモーダルディープラーニングを用いて,ユーザの意図をはるかに高いレベルで表現できるフルスタックシステムを実装した。
我々は,1)既存の音を探索すること,2)全く新しい音を作り出すこと,3)所定の音に意味のある修正を加えること,など,様々な課題に対処する機能を実装している。
論文 参考訳(メタデータ) (2023-12-07T20:40:36Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - SerumRNN: Step by Step Audio VST Effect Programming [18.35125491671331]
SerumRNNは、ユーザーの入力音声を目的の音声に変更するためのオーディオエフェクトを適用するためのステップバイステップの指示を提供するシステムです。
その結果、SerumRNNはさまざまなオーディオエフェクトとシンセサイザープリセットに有用なフィードバックを提供することができます。
論文 参考訳(メタデータ) (2021-04-08T16:32:14Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。