論文の概要: The Inverse Drum Machine: Source Separation Through Joint Transcription and Analysis-by-Synthesis
- arxiv url: http://arxiv.org/abs/2505.03337v1
- Date: Tue, 06 May 2025 09:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.297373
- Title: The Inverse Drum Machine: Source Separation Through Joint Transcription and Analysis-by-Synthesis
- Title(参考訳): 逆ドラムマシン:ジョイント転写と解析による音源分離
- Authors: Bernardo Torres, Geoffroy Peeters, Gael Richard,
- Abstract要約: Inverse Drum Machine (IDM) は、解析・合成とディープラーニングを組み合わせたドラムソース分離の新しい手法である。
IDMは個々のドラムの茎を再構築し、元の混合物と一致するようにニューラルネットワークを訓練する。
StemGMDデータセットの評価では、IDMは最先端の教師付き手法と同等の分離性能を達成している。
- 参考スコア(独自算出の注目度): 4.0595858175849076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Inverse Drum Machine (IDM), a novel approach to drum source separation that combines analysis-by-synthesis with deep learning. Unlike recent supervised methods that rely on isolated stems, IDM requires only transcription annotations. It jointly optimizes automatic drum transcription and one-shot drum sample synthesis in an end-to-end framework. By convolving synthesized one-shot samples with estimated onsets-mimicking a drum machine-IDM reconstructs individual drum stems and trains a neural network to match the original mixture. Evaluations on the StemGMD dataset show that IDM achieves separation performance on par with state-of-the-art supervised methods, while substantially outperforming matrix decomposition baselines.
- Abstract(参考訳): Inverse Drum Machine (IDM) は,解析・合成と深層学習を組み合わせたドラムソース分離手法である。
IDMは、単離された幹細胞に依存する最近の教師付き方法とは異なり、転写アノテーションのみを必要とする。
エンドツーエンドのフレームワークで、自動ドラム書き起こしとワンショットドラムサンプル合成を共同で最適化する。
合成した単発サンプルと推定オンセットを結合することにより、ドラムマシン-IDMは個々のドラムの茎を再構築し、ニューラルネットワークをトレーニングし、元の混合物と一致するように訓練する。
StemGMDデータセットの評価から,IMMは最先端の教師付き手法と同等に分離性能を達成し,行列分解ベースラインを大幅に上回る結果を得た。
関連論文リスト
- Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Toward Deep Drum Source Separation [52.01259769265708]
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
論文 参考訳(メタデータ) (2023-12-15T10:23:07Z) - PROM: A Phrase-level Copying Mechanism with Pre-training for Abstractive
Summarization [139.242907155883]
本研究は,n-gramの注目度を高める新しいPhRaseレベルのcOpying機構であるPROMを提案する。
PROMは、ソースからコピーできるn-gramのトークンを明示的にピックアップするインジケータ層を追加し、コピー予測の補助損失を算出する。
ゼロショット設定では、PROMは生コーパスの自己教師付き事前学習に利用され、広範囲の要約データセットに新しい一般的なベースラインを提供する。
論文 参考訳(メタデータ) (2023-05-11T08:29:05Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Conditional Drums Generation using Compound Word Representations [4.435094091999926]
複合語表現にインスパイアされた新しいデータ符号化方式を用いて、条件付きドラム生成の課題に取り組む。
本稿では,双方向長短期メモリ(BiLSTM)が条件パラメータに関する情報を受信するシーケンス・ツー・シーケンスアーキテクチャを提案する。
比較的グローバルな注目を集めたトランスフォーマーベースのデコーダが生成したドラムシーケンスを生成する。
論文 参考訳(メタデータ) (2022-02-09T13:49:27Z) - Differentiable Digital Signal Processing Mixture Model for Synthesis
Parameter Extraction from Mixture of Harmonic Sounds [29.012177604120048]
DDSPオートエンコーダ(DDSP Autoencoder)は、ディープニューラルネットワーク(DNN)とスペクトルモデリング合成を組み合わせた音響である。
入力音から抽出した基本周波数,音色,大音量(合成パラメータ)を変化させることで,音を柔軟に編集することができる。
モノフォニック・ハーモニック・サウンド用に設計されており、ハーモニックの混合音を扱えない。
論文 参考訳(メタデータ) (2022-02-01T03:38:49Z) - Reference-based Magnetic Resonance Image Reconstruction Using Texture
Transforme [86.6394254676369]
高速MRI再構成のための新しいテクスチャトランスフォーマーモジュール(TTM)を提案する。
変換器のクエリやキーとしてアンダーサンプルのデータと参照データを定式化する。
提案したTTMは、MRIの再構成手法に積み重ねることで、その性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-11-18T03:06:25Z) - Global Structure-Aware Drum Transcription Based on Self-Attention
Mechanisms [18.5148472561169]
本稿では、音楽信号からタタムレベルのドラムスコアを直接推定する自動ドラム転写(ADT)法について述べる。
ドラムスコアのグローバル反復構造を捉えるために,タタム同期位置符号化を用いた自己アテンション機構をデコーダに導入する。
実験の結果,提案モデルがタタムレベル誤差率とフレームレベルf測定値で従来のrnnモデルを上回ることがわかった。
論文 参考訳(メタデータ) (2021-05-12T17:04:16Z) - Multitask learning for instrument activation aware music source
separation [83.30944624666839]
本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。
その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-03T02:35:00Z) - wav2shape: Hearing the Shape of a Drum Machine [4.283530753133897]
波形からの物理的特性の分離と復元は、音声信号処理において難しい逆問題である。
本稿では,時間周波数解析と教師あり機械学習を組み合わせることでこの問題に対処することを提案する。
論文 参考訳(メタデータ) (2020-07-20T17:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。