論文の概要: A Cold Diffusion Approach for Percussive Dereverberation
- arxiv url: http://arxiv.org/abs/2605.10256v1
- Date: Mon, 11 May 2026 09:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.690185
- Title: A Cold Diffusion Approach for Percussive Dereverberation
- Title(参考訳): パーカッシブデリバベーションのための冷拡散法
- Authors: Dimos Makris, András Barják, Maximos Kaliakatsos-Papakostas,
- Abstract要約: パーカッシブ・デバーベレーションは、鋭い過渡性と密集した時間構造のために、異なる課題を生じさせる。
ステレオドラムステム(ダウンミックス)を除去するためのコールド拡散フレームワークを提案する。
UNetと拡散トランスフォーマーのバックボーンの両方を用いて,このフレームワークを実装した。
- 参考スコア(独自算出の注目度): 0.06554326244334865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most recent advances in audio dereverberation focus almost exclusively on speech, leaving percussive and drum signals largely unexplored despite their importance in music production. Percussive dereverberation poses distinct challenges due to sharp transients and dense temporal structure. In this work, we propose a cold diffusion framework for dereverberating stereo drum stems (downmixes), modeling reverberation as a deterministic degradation process that progressively transforms anechoic signals into reverberant ones. We investigate two reverse-process parameterizations, Direct (next-state) and a Delta-normalized residual (velocity-style) prediction, and implement the framework using both a UNet and a diffusion Transformer backbone. The models are trained and evaluated on curated datasets comprising both acoustic and electronic drum recordings, with reverberation generated using a combination of synthetic and real room impulse responses. Extensive experiments on in-domain and fully out-of-domain test sets demonstrate that the proposed method consistently outperforms strong score-based and conditional diffusion baselines, evaluated using signal-based and perceptual metrics tailored to percussive audio.
- Abstract(参考訳): 音声のデバーベーションの最近の進歩は、ほとんど音声のみに焦点を合わせており、音楽制作の重要性にもかかわらず、打楽器やドラムの信号はほとんど探索されていない。
パーカッシブ・デバーベレーションは、鋭い過渡性と密集した時間構造のために、異なる課題を生じさせる。
本研究では,アネコ信号から残響信号へ段階的に変換する決定論的劣化過程として,ステレオドラムスステム(ダウンミックス)を除去するためのコールド拡散フレームワークを提案する。
直列(next-state)とデルタ正規化残差(velocity-style)予測の2つの逆プロセスパラメータ化について検討し,UNetと拡散トランスフォーマーのバックボーンを用いてフレームワークを実装した。
モデルは、音響と電子の両方のドラム記録からなるキュレートされたデータセットに基づいて訓練され、評価され、合成と実室のインパルス応答の組み合わせを用いて残響が生成される。
ドメイン内およびドメイン外テストセットの広範囲な実験により,提案手法は強いスコアベースと条件付き拡散ベースラインを一貫して上回ることを示す。
関連論文リスト
- Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models [21.669363620480333]
本稿では,BUDDy と呼ばれる単一チャネルブラインド除去と室内インパルス応答 (RIR) 推定のための教師なし手法を提案する。
周波数サブバンド毎に指数減衰したRIRを表すパラメトリックフィルタを設計する。
本稿では,RIR推定におけるBUDDyの性能について検討し,不整合音響条件に対する最先端の教師付き推定器を超越して観測する。
論文 参考訳(メタデータ) (2024-08-14T11:31:32Z) - BUDDy: Single-Channel Blind Unsupervised Dereverberation with Diffusion Models [21.66936362048033]
そこで本研究では,非教師型単一チャネル方式による共同ブラインド除去と室内インパルス応答推定について述べる。
周波数サブバンド毎に指数減衰のフィルタを用いて残響演算子をパラメータ化し、音声発声が洗練されるにつれて、対応するパラメータを反復的に推定する。
論文 参考訳(メタデータ) (2024-05-07T12:41:31Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Unsupervised vocal dereverberation with diffusion-based generative
models [12.713895991763867]
そこで本稿では,学習にデータペアを必要とすることなく,一般的な音楽用人工残響を除去するための教師なし手法を提案する。
提案手法は,従来の有声弁別評価基準より優れており,客観的および知覚的評価が優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T09:43:01Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。