論文の概要: Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs
- arxiv url: http://arxiv.org/abs/2605.10281v1
- Date: Mon, 11 May 2026 09:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.703821
- Title: Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs
- Title(参考訳): ニューラルオーディオコーデックによる表現型ドラムグリッドからのドラム合成
- Authors: Konstantinos Soiledis, Maximos Kaliakatsos-Papakostas, Dimos Makris, Konstantinos Tsamis,
- Abstract要約: ニューラルオーディオの離散符号を予測することにより,表現力のあるドラムグリッドをドラムオーディオに変換するシステムを提案する。
提案手法ではトランスフォーマーモデルを用いて,入力したドラムグリッドを一連のトークンにマッピングし,波形音声に変換する。
客観的な測定値を用いて、生成した音声の忠実度と音楽的アライメントを評価する。
- 参考スコア(独自算出の注目度): 0.05999777817331315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic drum audio directly from symbolic representations is a challenging task at the intersection of music perception and machine learning. We propose a system that transforms an expressive drum grid, a time-aligned MIDI representation with microtiming and velocity information, into drum audio by predicting discrete codes of a neural audio codec. Our approach uses a Transformer-based model to map the drum grid input to a sequence of codec tokens, which are then converted to waveform audio via a pre-trained codec decoder. We experiment with multiple state-of-the-art neural codecs, namely EnCodec, DAC, and X-Codec, to assess how the choice of audio representation impacts the quality of the generated drums. The system is trained and evaluated on the Expanded Groove MIDI Dataset, E-GMD, a large collection of human drum performances with paired MIDI and audio. We evaluate the fidelity and musical alignment of the generated audio using objective metrics. Overall, our results establish codec-token prediction as an effective route for drum grid-to-audio generation and provide practical insights into selecting audio tokenizers for percussive synthesis.
- Abstract(参考訳): 記号表現から直接現実的なドラムオーディオを生成することは、音楽知覚と機械学習の交差において難しい課題である。
本稿では,表現力のあるドラムグリッド,時間整合MIDI表現をマイクロチューニングと速度情報で表現し,ニューラルオーディオコーデックの離散符号を予測してドラムオーディオに変換するシステムを提案する。
提案手法ではトランスフォーマーモデルを用いて,入力したドラムグリッドをコーデックトークンのシーケンスにマッピングし,事前学習したコーデックデコーダを介して波形音声に変換する。
本研究では,複数の最先端のニューラルコーデック,すなわちEnCodec,DAC,X-Codecを用いて,音響表現の選択が生成したドラムの品質に与える影響を評価する。
このシステムは、MIDIとオーディオをペアにした人間のドラム演奏の大規模なコレクションであるE-GMD(Expanded Groove MIDI Dataset, E-GMD)で訓練され、評価されている。
客観的な測定値を用いて、生成した音声の忠実度と音楽的アライメントを評価する。
全体として,ドラムグリッド・オーディオ生成の有効な経路としてコーデック・トーケン予測が確立され,パーカッッシブ・シンセサイザーの選択に関する実践的な洞察が得られた。
関連論文リスト
- High-Fidelity Music Vocoder using Neural Audio Codecs [18.95453617434051]
DisCoderは、メルスペクトログラムから44.1kHzの高忠実度オーディオを再構成するニューラルヴォコーダである。
DisCoderは、いくつかの客観的メトリクスとMUSHRAリスニングスタディにおいて、音楽合成における最先端のパフォーマンスを達成する。
提案手法は,音声合成における競合性能も示し,普遍的なボコーダとしての可能性を強調した。
論文 参考訳(メタデータ) (2025-02-18T11:25:46Z) - TokenSynth: A Token-based Neural Synthesizer for Instrument Cloning and Text-to-Instrument [19.395289629201056]
Token Synthは、MIDIトークンとCLAP埋め込みからオーディオトークンを生成する新しいニューラルシンセサイザーである。
本モデルは,楽器のクローニング,テキスト間合成,テキスト誘導音色操作を行うことができる。
論文 参考訳(メタデータ) (2025-02-13T03:40:30Z) - Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを必要としない。
MIDIの入力に基づいて合成音声トラックを生成し、MIDIアノテーションなしでデータセットに基づいて訓練された拡散に基づく深層生成モデルで洗練する。
デジタルオーディオワークステーションの伝統的な機能と同様、音声サンプルの選択やMIDI設計を通じて音色や表現を詳細に制御することができる。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - JukeDrummer: Conditional Beat-aware Audio-domain Drum Accompaniment
Generation via Transformer VQ-VA [31.107718069816116]
我々はトランスフォーマーモデルを訓練し、目に見えないドラムレス録音のドラム部分を改善する。
入力音声のビート関連特性を計算し,それをトランスフォーマーの埋め込みとして利用する。
提案したモデルの変種を客観的かつ主観的に評価する。
論文 参考訳(メタデータ) (2022-10-12T08:23:20Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks [0.0]
本稿では、DrumGAN VSTについて述べる。DrumGAN VSTは、ジェネレーティブ・アドリアル・ネットワークを用いてドラム音を合成するためのプラグインである。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜伏空間に音をマッピングする符号化ニューラルネットワークを備えている。
論文 参考訳(メタデータ) (2022-06-29T15:44:19Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。