論文の概要: DiffRoll: Diffusion-based Generative Music Transcription with
Unsupervised Pretraining Capability
- arxiv url: http://arxiv.org/abs/2210.05148v1
- Date: Tue, 11 Oct 2022 05:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:53:41.564068
- Title: DiffRoll: Diffusion-based Generative Music Transcription with
Unsupervised Pretraining Capability
- Title(参考訳): diffroll:unsupervised pretraining機能を持つ拡散型生成音楽転写
- Authors: Kin Wai Cheuk, Ryosuke Sawata, Toshimitsu Uesaka, Naoki Murata, Naoya
Takahashi, Shusuke Takahashi, Dorien Herremans, Yuki Mitsufuji
- Abstract要約: 本稿では,AMT(Automatic Music transcription)のための新しい生成手法を提案する。
AMTを、スペクトログラムをピアノロールに変換するために訓練された識別タスクとして扱う代わりに、スペクトログラムに条件付けされた純粋ガウス雑音から現実的なピアノロールを生成するための条件生成タスクとみなす。
実験の結果,DiffRollの識別能力は17.9ポイント(ppt)に優れており,アブレーション法では3.70pptに優れていた。
- 参考スコア(独自算出の注目度): 24.175891315965874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose a novel generative approach, DiffRoll, to tackle
automatic music transcription (AMT). Instead of treating AMT as a
discriminative task in which the model is trained to convert spectrograms into
piano rolls, we think of it as a conditional generative task where we train our
model to generate realistic looking piano rolls from pure Gaussian noise
conditioned on spectrograms. This new AMT formulation enables DiffRoll to
transcribe, generate and even inpaint music. Due to the classifier-free nature,
DiffRoll is also able to be trained on unpaired datasets where only piano rolls
are available. Our experiments show that DiffRoll outperforms its
discriminative counterpart by 17.9 percentage points (ppt.) and our ablation
studies also indicate that it outperforms similar existing methods by 3.70 ppt.
- Abstract(参考訳): 本稿では,自動音楽書き起こし(amt)に取り組むための新しい生成手法diffrollを提案する。
AMTを、スペクトログラムをピアノロールに変換するために訓練された識別タスクとして扱う代わりに、スペクトログラムに条件付けされた純粋ガウス雑音から現実的なピアノロールを生成するための条件生成タスクとみなす。
この新しいAMTの定式化により、DiffRollは曲の書き起こし、生成、そしてインペイントまでできる。
分類器のない性質のため、DiffRollはピアノロールのみが利用可能な未ペアデータセットでトレーニングすることもできる。
実験の結果, diffroll は17.9パーセンテージ (ppt.) で, 従来の手法より3.70ppt (3.70ppt) も優れていることがわかった。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model [9.908561639396273]
DiffImputeという新しい拡散確率モデル(DDPM)を提案する。
既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成する。
Missing Completely At Random (MCAR) と Missing At Random (MAR) の様々な設定に適用できる。
論文 参考訳(メタデータ) (2024-03-20T08:45:31Z) - Generating symbolic music using diffusion models [0.0]
ピアノロールを生成するために二項先行分布を用いた拡散モデルを提案する。
生成された音楽は、トレーニングピアノロールセグメントの長さまで時間的にコヒーレンスを有する。
コードは、コミュニティによるメソッドの使用と開発を促進するために、公開されています。
論文 参考訳(メタデータ) (2023-03-15T06:01:02Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Robust Face Anti-Spoofing with Dual Probabilistic Modeling [49.14353429234298]
本稿では、DPM-LQ(ラベル品質認識学習)とDPM-DQ(データ品質認識学習)という2つの専用モジュールを備えたDPM(Dual Probabilistic Modeling)という統合フレームワークを提案する。
DPM-LQは、ノイズのあるセマンティックラベルの分布に過度に適合することなく、ロバストな特徴表現を生成することができる。
DPM-DQは、その品質分布に基づいてノイズデータの予測信頼度を補正することにより、推論中のFalse Reject'およびFalse Accept'からデータノイズを除去することができる。
論文 参考訳(メタデータ) (2022-04-27T03:44:18Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Learning Noise Transition Matrix from Only Noisy Labels via Total
Variation Regularization [88.91872713134342]
本稿では,雑音遷移行列を推定し,同時に分類器を学習する理論的基礎付け手法を提案する。
提案手法の有効性を,ベンチマークおよび実世界のデータセットを用いた実験により示す。
論文 参考訳(メタデータ) (2021-02-04T05:09:18Z) - A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation [0.0]
本研究の目的は,MIDIクリップが自動生成仮説に基づいて構成される可能性を示すモデルを得ることである。
実験結果は、CSMT(2020)のデータチャレンジにおける7ドルチームの中で、私たちのモデルが3位にランクされていることを示している。
論文 参考訳(メタデータ) (2020-10-15T13:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。