論文の概要: Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription
- arxiv url: http://arxiv.org/abs/2509.21739v1
- Date: Fri, 26 Sep 2025 01:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.102571
- Title: Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription
- Title(参考訳): ノイズ・トゥ・ノート:拡散に基づく自動ドラム転写のための生成・再生
- Authors: Michael Yeung, Keisuke Toyama, Toya Teramoto, Shusuke Takahashi, Tamaki Kojima,
- Abstract要約: オートマチック・ドラム・リテラル(ADT)は、伝統的に、オーディオ・スペクトログラムからドラムイベントを予測する識別タスクとして定式化されている。
ノイズ・トゥ・ノート(N2N)は、拡散モデルを利用して、音響条件付きガウス雑音を関連する速度でドラムイベントに変換するフレームワークである。
N2Nは、複数のADTベンチマークにまたがって、最先端のパフォーマンスを新たに確立する。
- 参考スコア(独自算出の注目度): 6.453619274330351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic drum transcription (ADT) is traditionally formulated as a discriminative task to predict drum events from audio spectrograms. In this work, we redefine ADT as a conditional generative task and introduce Noise-to-Notes (N2N), a framework leveraging diffusion modeling to transform audio-conditioned Gaussian noise into drum events with associated velocities. This generative diffusion approach offers distinct advantages, including a flexible speed-accuracy trade-off and strong inpainting capabilities. However, the generation of binary onset and continuous velocity values presents a challenge for diffusion models, and to overcome this, we introduce an Annealed Pseudo-Huber loss to facilitate effective joint optimization. Finally, to augment low-level spectrogram features, we propose incorporating features extracted from music foundation models (MFMs), which capture high-level semantic information and enhance robustness to out-of-domain drum audio. Experimental results demonstrate that including MFM features significantly improves robustness and N2N establishes a new state-of-the-art performance across multiple ADT benchmarks.
- Abstract(参考訳): オートマチック・ドラム・リテラル(ADT)は、伝統的に、オーディオ・スペクトログラムからドラムイベントを予測する識別タスクとして定式化されている。
本研究では, ADT を条件生成タスクとして再定義し, 拡散モデルを利用した音響条件付きガウス雑音を関連する速度でドラムイベントに変換するフレームワークであるNoss-to-Notes (N2N) を導入する。
この生成拡散アプローチは、フレキシブルなスピード精度トレードオフと強力な塗装能力を含む、明確な利点を提供する。
しかし,2値のオンセットと連続速度の生成は拡散モデルの課題であり,これを克服するために,効果的な共同最適化を容易にするために,Annealed Pseudo-Huber損失を導入する。
最後に,低レベルスペクトログラム機能を強化するために,高レベルな意味情報をキャプチャし,外部のドラム・オーディオに頑健さを向上する音楽基礎モデル(MFM)から抽出した特徴を取り入れることを提案する。
実験の結果、MFM機能を含むとロバスト性が著しく向上し、N2Nは複数のADTベンチマークにまたがる新しい最先端性能を確立した。
関連論文リスト
- Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。
この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2025-06-11T06:01:39Z) - Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models [1.0579965347526206]
大規模言語モデル(LLM)は、しばしば不正確な、または誤解を招くコンテンツ・ハロシンを生成する。
noise-Augmented Fine-Tuning (NoiseFiT) は適応ノイズ注入を利用してモデルロバスト性を高める新しいフレームワークである。
NoiseFiTは、動的にスケールしたガウス雑音を用いて、高SNR(より堅牢)または低SNR(潜在的に過正規化)と同定された層を選択的に摂動する。
論文 参考訳(メタデータ) (2025-04-04T09:27:19Z) - DenoMAE: A Multimodal Autoencoder for Denoising Modulation Signals [21.25974800554959]
デノマエ(DenoMAE)は、プレトレーニング中に変調信号を復調するための新しいフレームワークである。
ノイズを含む複数の入力モダリティを組み込んで、クロスモーダル学習を強化する。
自動変調分類タスクにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-01-20T15:23:16Z) - DiffFNO: Diffusion Fourier Neural Operator [8.895165270489167]
重み付きフーリエニューラル演算子(WFNO)により強化された任意のスケール超解像のための新しい拡散フレームワークDiffFNOを紹介する。
WFNOにおけるモードリバランシングは、重要な周波数成分を効果的に捕捉し、高周波画像の再現を大幅に改善する。
提案手法は,高精度かつ計算効率の両面において,超解像の新たな標準を定めている。
論文 参考訳(メタデータ) (2024-11-15T03:14:11Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。