論文の概要: Towards Realistic Synthetic Data for Automatic Drum Transcription
- arxiv url: http://arxiv.org/abs/2601.09520v1
- Date: Wed, 14 Jan 2026 14:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.430947
- Title: Towards Realistic Synthetic Data for Automatic Drum Transcription
- Title(参考訳): ドラム自動書き起こしのためのリアルな合成データに向けて
- Authors: Pierfrancesco Melucci, Paolo Merialdo, Taketo Akama,
- Abstract要約: 本稿では,ペアオーディオ-MIDIトレーニングデータの必要性を回避するために,ADT(Automatic Drum Transcription)の新たなパラダイムを提案する。
我々の主な貢献は、ラベルなし音源からの1発ドラムサンプルの多種多様なコーパスを自動的にキュレートする半教師付き手法である。
次に、このコーパスを用いて、MIDIファイルのみから高品質なデータセットを合成し、シーケンス対シーケンスの転写モデルをトレーニングする。
- 参考スコア(独自算出の注目度): 3.975380931806995
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning models define the state-of-the-art in Automatic Drum Transcription (ADT), yet their performance is contingent upon large-scale, paired audio-MIDI datasets, which are scarce. Existing workarounds that use synthetic data often introduce a significant domain gap, as they typically rely on low-fidelity SoundFont libraries that lack acoustic diversity. While high-quality one-shot samples offer a better alternative, they are not available in a standardized, large-scale format suitable for training. This paper introduces a new paradigm for ADT that circumvents the need for paired audio-MIDI training data. Our primary contribution is a semi-supervised method to automatically curate a large and diverse corpus of one-shot drum samples from unlabeled audio sources. We then use this corpus to synthesize a high-quality dataset from MIDI files alone, which we use to train a sequence-to-sequence transcription model. We evaluate our model on the ENST and MDB test sets, where it achieves new state-of-the-art results, significantly outperforming both fully supervised methods and previous synthetic-data approaches. The code for reproducing our experiments is publicly available at https://github.com/pier-maker92/ADT_STR
- Abstract(参考訳): ディープラーニングモデルは、ADT(Automatic Drum Transcription)の最先端を定義するが、そのパフォーマンスは大規模でペア化されたオーディオ-MIDIデータセットにかかっている。
合成データを使用する既存の回避策は、音響の多様性に欠ける低忠実度なSoundFontライブラリに依存することが多いため、大きなドメインギャップをもたらすことが多い。
高品質のワンショットサンプルはより良い代替手段を提供するが、トレーニングに適した標準化された大規模フォーマットでは利用できない。
本稿では,ペアオーディオ-MIDIトレーニングデータの必要性を回避するため,ADTの新しいパラダイムを提案する。
我々の主な貢献は、ラベルなし音源からの1発ドラムサンプルの多種多様なコーパスを自動的にキュレートする半教師付き手法である。
次に、このコーパスを用いて、MIDIファイルのみから高品質なデータセットを合成し、シーケンス対シーケンスの転写モデルをトレーニングする。
我々はENSTとMDBテストセットのモデルを評価し、新しい最先端結果を実現し、完全に教師付きされた手法と過去の合成データアプローチの両方を著しく上回る結果を得た。
実験を再現するためのコードはhttps://github.com/pier-maker92/ADT_STRで公開されている。
関連論文リスト
- Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。
重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文 参考訳(メタデータ) (2025-07-14T04:41:38Z) - Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを必要としない。
MIDIの入力に基づいて合成音声トラックを生成し、MIDIアノテーションなしでデータセットに基づいて訓練された拡散に基づく深層生成モデルで洗練する。
デジタルオーディオワークステーションの伝統的な機能と同様、音声サンプルの選択やMIDI設計を通じて音色や表現を詳細に制御することができる。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion [0.0]
そこで本研究では,MIDI-audio ペアデータの事前学習や対向領域の混乱を伴わない書き起こしモデルを提案する。
実験では、トレーニングデータセットがMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。
提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。
論文 参考訳(メタデータ) (2023-12-16T10:07:18Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。