論文の概要: Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis
- arxiv url: http://arxiv.org/abs/2605.14555v1
- Date: Thu, 14 May 2026 08:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.719145
- Title: Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis
- Title(参考訳): ブレイク・ザ・ビート! 制御可能なMIDI-to-Drumオーディオ合成
- Authors: Shuyang Cui, Zhi Zhong, Qiyu Wu, Zachary Novack, Woosung Choi, Keisuke Toyama, Kin Wai Cheuk, Junghyun Koo, Yukara Ikemiya, Christian Simon, Chihiro Nagashima, Shusuke Takahashi,
- Abstract要約: ワンショットサンプルや再サンプリングなど、デジタル音楽制作におけるドラムループオーディオ作成の現在の手法は、しばしば自明な努力を必要としている。
ドラムMIDIをレファレンスオーディオの音色でレンダリングできるモデル「Break-the-Beat!」を紹介します。
- 参考スコア(独自算出の注目度): 18.032312795378004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current methods for creating drum loop audio in digital music production, such as using one-shot samples or resampling, often demand non-trivial efforts of creators. While recent generative models achieve high fidelity and adhere to text, they lack the specific control needed for such a task. Existing symbolic-to-audio research often focuses on single, tonal instruments, leaving the challenge of polyphonic, percussive drum synthesis unaddressed. We address this gap by introducing ``Break-the-Beat!,'' a model capable of rendering a drum MIDI with the timbre of a reference audio. It is built by fine-tuning a pre-trained text-to-audio model with our proposed content encoder and a effective hybrid conditioning mechanism. To enable this, we construct a new dataset of paired target-reference drum audio from existing drum audio datasets. Experiments demonstrate that our model generates high-quality drum audio that follows high-resolution drum MIDI, achieving strong performance across metrics of audio quality, rhythmic alignment, and beat continuity. This offer producers a new, controllable tool for creative production. Demo page: https://ik4sumii.github.io/break-the-beat/
- Abstract(参考訳): デジタル音楽制作において、ワンショットサンプルの使用や再サンプリングなどのドラムループオーディオを作成するための現在の手法は、創造者にとって自明な努力を必要とすることが多い。
最近の生成モデルは高い忠実性を達成し、テキストに固執するが、そのようなタスクに必要な特定の制御は欠如している。
既存のシンボリック・トゥ・オーディオの研究は、しばしばシングル・トーン楽器に焦点を合わせており、ポリフォニックでパーカッシブなドラム合成の課題は未解決のままである。
このギャップには ``Break-the-Beat!
は、ドラムMIDIをリファレンスオーディオの音色でレンダリングできるモデルです。
提案するコンテンツエンコーダと効果的なハイブリッドコンディショニング機構を用いて,事前学習したテキスト・音声モデルの微調整により構築した。
これを実現するため,既存のドラム・オーディオ・データセットからペア・ターゲット・リファレンス・ドラム・オーディオのデータセットを構築した。
実験により,本モデルは高分解能ドラムMIDIに追従して高音質ドラムオーディオを生成し,音質,リズムアライメント,ビート連続性などの指標で高い性能を実現していることが示された。
これにより、プロデューサは創造的生産のための新しいコントロール可能なツールを提供する。
デモページ:https://ik4sumii.github.io/break-the-beat/
関連論文リスト
- Drum Synthesis from Expressive Drum Grids via Neural Audio Codecs [0.05999777817331315]
ニューラルオーディオの離散符号を予測することにより,表現力のあるドラムグリッドをドラムオーディオに変換するシステムを提案する。
提案手法ではトランスフォーマーモデルを用いて,入力したドラムグリッドを一連のトークンにマッピングし,波形音声に変換する。
客観的な測定値を用いて、生成した音声の忠実度と音楽的アライメントを評価する。
論文 参考訳(メタデータ) (2026-05-11T09:40:14Z) - Towards Realistic Synthetic Data for Automatic Drum Transcription [3.975380931806995]
本稿では,ペアオーディオ-MIDIトレーニングデータの必要性を回避するために,ADT(Automatic Drum Transcription)の新たなパラダイムを提案する。
我々の主な貢献は、ラベルなし音源からの1発ドラムサンプルの多種多様なコーパスを自動的にキュレートする半教師付き手法である。
次に、このコーパスを用いて、MIDIファイルのみから高品質なデータセットを合成し、シーケンス対シーケンスの転写モデルをトレーニングする。
論文 参考訳(メタデータ) (2026-01-14T14:39:05Z) - Music Boomerang: Reusing Diffusion Models for Data Augmentation and Audio Manipulation [49.062766449989525]
音楽オーディオの生成モデルは、典型的にはテキストプロンプトやメロディのみに基づいて出力を生成するために使用される。
画像領域に対して最近提案されたブーメランサンプリングでは,任意の事前学習拡散モデルを用いて,既存の例に近い出力を生成することができる。
論文 参考訳(メタデータ) (2025-07-07T10:46:07Z) - Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを必要としない。
MIDIの入力に基づいて合成音声トラックを生成し、MIDIアノテーションなしでデータセットに基づいて訓練された拡散に基づく深層生成モデルで洗練する。
デジタルオーディオワークステーションの伝統的な機能と同様、音声サンプルの選択やMIDI設計を通じて音色や表現を詳細に制御することができる。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - Toward Deep Drum Source Separation [52.01259769265708]
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
論文 参考訳(メタデータ) (2023-12-15T10:23:07Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - DrumGAN VST: A Plugin for Drum Sound Analysis/Synthesis With
Autoencoding Generative Adversarial Networks [0.0]
本稿では、DrumGAN VSTについて述べる。DrumGAN VSTは、ジェネレーティブ・アドリアル・ネットワークを用いてドラム音を合成するためのプラグインである。
DrumGAN VSTは44.1kHzのサンプルレートオーディオで動作し、独立した連続的な計器クラスコントロールを提供し、GANの潜伏空間に音をマッピングする符号化ニューラルネットワークを備えている。
論文 参考訳(メタデータ) (2022-06-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。