論文の概要: JukeDrummer: Conditional Beat-aware Audio-domain Drum Accompaniment
Generation via Transformer VQ-VA
- arxiv url: http://arxiv.org/abs/2210.06007v1
- Date: Wed, 12 Oct 2022 08:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:36:43.090295
- Title: JukeDrummer: Conditional Beat-aware Audio-domain Drum Accompaniment
Generation via Transformer VQ-VA
- Title(参考訳): JukeDrummer: Transformer VQ-VAによる条件付きビート対応オーディオドメインドラム伴奏
- Authors: Yueh-Kao Wu, Ching-Yu Chiu, Yi-Hsuan Yang
- Abstract要約: 我々はトランスフォーマーモデルを訓練し、目に見えないドラムレス録音のドラム部分を改善する。
入力音声のビート関連特性を計算し,それをトランスフォーマーの埋め込みとして利用する。
提案したモデルの変種を客観的かつ主観的に評価する。
- 参考スコア(独自算出の注目度): 31.107718069816116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a model that generates a drum track in the audio domain
to play along to a user-provided drum-free recording. Specifically, using
paired data of drumless tracks and the corresponding human-made drum tracks, we
train a Transformer model to improvise the drum part of an unseen drumless
recording. We combine two approaches to encode the input audio. First, we train
a vector-quantized variational autoencoder (VQ-VAE) to represent the input
audio with discrete codes, which can then be readily used in a Transformer.
Second, using an audio-domain beat tracking model, we compute beat-related
features of the input audio and use them as embeddings in the Transformer.
Instead of generating the drum track directly as waveforms, we use a separate
VQ-VAE to encode the mel-spectrogram of a drum track into another set of
discrete codes, and train the Transformer to predict the sequence of
drum-related discrete codes. The output codes are then converted to a
mel-spectrogram with a decoder, and then to the waveform with a vocoder. We
report both objective and subjective evaluations of variants of the proposed
model, demonstrating that the model with beat information generates drum
accompaniment that is rhythmically and stylistically consistent with the input
audio.
- Abstract(参考訳): 本稿では,ユーザが提供したドラムフリー録音と共に演奏するために,オーディオ領域でドラムトラックを生成するモデルを提案する。
具体的には、ドラムレストラックとそれに対応する人造ドラムトラックのペアデータを用いて、トランスフォーマーモデルを訓練して、目に見えないドラムレスレコードのドラム部分の即興化を行う。
入力音声を符号化する2つの手法を組み合わせる。
まず、ベクトル量子化変分オートエンコーダ(VQ-VAE)を訓練し、入力された音声を離散コードで表現し、変換器で容易に使用できるようにする。
次に,音声領域のビート追跡モデルを用いて入力音声のビート関連特徴を計算し,それらをトランスフォーマーへの埋め込みとして利用する。
波形として直接ドラムトラックを生成する代わりに、別のvq-vaeを使用してドラムトラックのメルスペクトログラムを別の離散符号に符号化し、トランスフォーマを訓練してドラム関連離散符号のシーケンスを予測する。
その後、出力符号はデコーダでメルスペクトログラムに変換され、ボコーダで波形に変換される。
本研究は,提案手法の変種に対する客観評価と主観評価の両方を報告し,ビート情報を持つモデルが入力音声とリズム的,スタイリスティックに整合したドラム伴奏を生成することを示す。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks [0.0]
本稿では、DrumGAN VSTについて述べる。DrumGAN VSTは、ジェネレーティブ・アドリアル・ネットワークを用いてドラム音を合成するためのプラグインである。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜伏空間に音をマッピングする符号化ニューラルネットワークを備えている。
論文 参考訳(メタデータ) (2022-06-29T15:44:19Z) - Conditional Drums Generation using Compound Word Representations [4.435094091999926]
複合語表現にインスパイアされた新しいデータ符号化方式を用いて、条件付きドラム生成の課題に取り組む。
本稿では,双方向長短期メモリ(BiLSTM)が条件パラメータに関する情報を受信するシーケンス・ツー・シーケンスアーキテクチャを提案する。
比較的グローバルな注目を集めたトランスフォーマーベースのデコーダが生成したドラムシーケンスを生成する。
論文 参考訳(メタデータ) (2022-02-09T13:49:27Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE [36.9033909878202]
トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
論文 参考訳(メタデータ) (2021-05-10T03:44:03Z) - CycleDRUMS: Automatic Drum Arrangement For Bass Lines Using CycleGAN [12.93891163150604]
CycleDRUMSはベースラインを与えられたドラムを生成する新しい方法である。
バスの波形をメル・スペクトログラムに変換した後、ビートに追従するオリジナルドラムを自動的に生成することができる。
論文 参考訳(メタデータ) (2021-04-01T09:17:48Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。