論文の概要: Why Perturbing Symbolic Music is Necessary: Fitting the Distribution of Never-used Notes through a Joint Probabilistic Diffusion Model
- arxiv url: http://arxiv.org/abs/2408.01950v1
- Date: Sun, 4 Aug 2024 07:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 17:41:24.244741
- Title: Why Perturbing Symbolic Music is Necessary: Fitting the Distribution of Never-used Notes through a Joint Probabilistic Diffusion Model
- Title(参考訳): シンボリック・ミュージックの摂動はなぜ必要か : 連立確率拡散モデルによる未使用音符の分布設定
- Authors: Shipei Liu, Xiaoya Fan, Guowei Wu,
- Abstract要約: 既存の音楽生成モデルは大部分が言語ベースであり、音符の周波数連続性を無視する。
本稿では,音符と意味情報の連成分布に適合し,記号的な音楽条件を生成する音楽ディフアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 6.085444830169205
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing music generation models are mostly language-based, neglecting the frequency continuity property of notes, resulting in inadequate fitting of rare or never-used notes and thus reducing the diversity of generated samples. We argue that the distribution of notes can be modeled by translational invariance and periodicity, especially using diffusion models to generalize notes by injecting frequency-domain Gaussian noise. However, due to the low-density nature of music symbols, estimating the distribution of notes latent in the high-density solution space poses significant challenges. To address this problem, we introduce the Music-Diff architecture, which fits a joint distribution of notes and accompanying semantic information to generate symbolic music conditionally. We first enhance the fragmentation module for extracting semantics by using event-based notations and the structural similarity index, thereby preventing boundary blurring. As a prerequisite for multivariate perturbation, we introduce a joint pre-training method to construct the progressions between notes and musical semantics while avoiding direct modeling of low-density notes. Finally, we recover the perturbed notes by a multi-branch denoiser that fits multiple noise objectives via Pareto optimization. Our experiments suggest that in contrast to language models, joint probability diffusion models perturbing at both note and semantic levels can provide more sample diversity and compositional regularity. The case study highlights the rhythmic advantages of our model over language- and DDPMs-based models by analyzing the hierarchical structure expressed in the self-similarity metrics.
- Abstract(参考訳): 既存の音楽生成モデルは、主に言語に基づいており、音符の周波数連続性を無視し、希少な音符や未使用音符の適合性が不十分になり、生成したサンプルの多様性が低下する。
特に拡散モデルを用いて、周波数領域のガウス雑音を注入することにより、音符の分布を一般化することができる。
しかし、音楽記号の密度の低い性質のため、高密度解空間における音符の分布を推定することは大きな課題となる。
この問題に対処するために,音符の連成分布と付随する意味情報に適合する音楽ディフアーキテクチャを導入し,記号音楽の条件付き生成を行う。
まず、イベントベースの表記法と構造的類似度指数を用いて意味論を抽出するための断片化モジュールを拡張し、境界のぼやけを防止する。
多変量摂動の前提条件として,低密度音符の直接モデリングを回避しつつ,音符と音楽意味論の進行を構築するための共同事前学習手法を提案する。
最後に、パレート最適化により複数の雑音対象に適合するマルチブランチデノイザを用いて、摂動音を復元する。
本実験は, 言語モデルとは対照的に, 音節レベルと意味レベルの両方で摂動する結合確率拡散モデルにより, より多くのサンプルの多様性と構成規則性が得られることを示唆している。
このケーススタディでは,自己相似性指標で表される階層構造を解析することにより,言語モデルとDDPMモデルに対するモデルのリズミカルアドバンテージを強調した。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Glauber Generative Model: Discrete Diffusion Models via Binary Classification [21.816933208895843]
離散拡散モデルの新しいクラスであるグラウバー生成モデル(GGM)を紹介する。
GGMはマルコフ連鎖を展開させ、離散トークンの共分散からサンプルにノイズトークンの列を分解する。
言語生成や画像生成において,既存の離散拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T10:42:13Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Removing Structured Noise with Diffusion Models [14.187153638386379]
拡散モデルによる後方サンプリングの強力なパラダイムは、リッチで構造化されたノイズモデルを含むように拡張可能であることを示す。
構成雑音による様々な逆問題に対して高い性能向上を示し、競争的ベースラインよりも優れた性能を示す。
これにより、非ガウス測度モデルの文脈における逆問題に対する拡散モデリングの新しい機会と関連する実践的応用が開かれる。
論文 参考訳(メタデータ) (2023-01-20T23:42:25Z) - From Denoising Diffusions to Denoising Markov Models [38.33676858989955]
デノイング拡散は、顕著な経験的性能を示す最先端の生成モデルである。
本稿では、この手法を広い範囲に一般化し、スコアマッチングのオリジナル拡張につながる統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T14:34:27Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。