論文の概要: Symbolic Music Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2103.16091v1
- Date: Tue, 30 Mar 2021 05:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:06:38.029477
- Title: Symbolic Music Generation with Diffusion Models
- Title(参考訳): 拡散モデルを用いたシンボリック音楽生成
- Authors: Gautam Mittal, Jesse Engel, Curtis Hawthorne, Ian Simon
- Abstract要約: 本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
- 参考スコア(独自算出の注目度): 4.817429789586127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based generative models and diffusion probabilistic models have been
successful at generating high-quality samples in continuous domains such as
images and audio. However, due to their Langevin-inspired sampling mechanisms,
their application to discrete and sequential data has been limited. In this
work, we present a technique for training diffusion models on sequential data
by parameterizing the discrete domain in the continuous latent space of a
pre-trained variational autoencoder. Our method is non-autoregressive and
learns to generate sequences of latent embeddings through the reverse process
and offers parallel generation with a constant number of iterative refinement
steps. We apply this technique to modeling symbolic music and show strong
unconditional generation and post-hoc conditional infilling results compared to
autoregressive language models operating over the same continuous embeddings.
- Abstract(参考訳): スコアベース生成モデルと拡散確率モデルは、画像やオーディオなどの連続領域で高品質なサンプルを生成することに成功している。
しかし、Langevinにインスパイアされたサンプリング機構により、離散データやシーケンシャルデータへの応用は制限されている。
本研究では、事前学習された変分オートエンコーダの連続潜時空間における離散領域をパラメータ化することにより、逐次データ上で拡散モデルを訓練する手法を提案する。
提案手法は非自己回帰的であり, 逆過程を通じて潜伏埋め込みの列を生成することを学習し, 並列生成を一定数の反復的精錬ステップで実現する。
この手法をシンボリック音楽のモデル化に適用し,同一の連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
関連論文リスト
- Discrete Modeling via Boundary Conditional Diffusion Processes [29.95155303262501]
従来のアプローチは、離散データと継続的モデリングの相違に悩まされてきた。
本稿では,まず境界を先行分布として推定する2段階の前進過程を提案する。
次に前方軌道を再スケールして境界条件拡散モデルを構築する。
論文 参考訳(メタデータ) (2024-10-29T09:42:42Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Discrete Diffusion Language Model for Long Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。
提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-25T09:55:22Z) - Fast Sampling via Discrete Non-Markov Diffusion Models [49.598085130313514]
離散データ生成のための高速化された逆サンプリングを許容する離散非マルコフ拡散モデルを提案する。
提案手法は, ニューラルネットワークに対する関数評価の回数を大幅に削減し, サンプリング処理を高速化する。
論文 参考訳(メタデータ) (2023-12-14T18:14:11Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Latent Dynamical Implicit Diffusion Processes [0.0]
潜在動的暗黙拡散過程(LDIDP)と呼ばれる新しい潜時変動モデルを提案する。
LDIDPは暗黙の拡散過程を利用して動的潜伏過程からサンプリングし、それに従って逐次観測サンプルを生成する。
我々は, LDIDP が潜在次元上の力学を正確に学習できることを実証した。
論文 参考訳(メタデータ) (2023-06-12T12:43:27Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。