論文の概要: Symbolic Music Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2103.16091v1
- Date: Tue, 30 Mar 2021 05:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:06:38.029477
- Title: Symbolic Music Generation with Diffusion Models
- Title(参考訳): 拡散モデルを用いたシンボリック音楽生成
- Authors: Gautam Mittal, Jesse Engel, Curtis Hawthorne, Ian Simon
- Abstract要約: 本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
- 参考スコア(独自算出の注目度): 4.817429789586127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based generative models and diffusion probabilistic models have been
successful at generating high-quality samples in continuous domains such as
images and audio. However, due to their Langevin-inspired sampling mechanisms,
their application to discrete and sequential data has been limited. In this
work, we present a technique for training diffusion models on sequential data
by parameterizing the discrete domain in the continuous latent space of a
pre-trained variational autoencoder. Our method is non-autoregressive and
learns to generate sequences of latent embeddings through the reverse process
and offers parallel generation with a constant number of iterative refinement
steps. We apply this technique to modeling symbolic music and show strong
unconditional generation and post-hoc conditional infilling results compared to
autoregressive language models operating over the same continuous embeddings.
- Abstract(参考訳): スコアベース生成モデルと拡散確率モデルは、画像やオーディオなどの連続領域で高品質なサンプルを生成することに成功している。
しかし、Langevinにインスパイアされたサンプリング機構により、離散データやシーケンシャルデータへの応用は制限されている。
本研究では、事前学習された変分オートエンコーダの連続潜時空間における離散領域をパラメータ化することにより、逐次データ上で拡散モデルを訓練する手法を提案する。
提案手法は非自己回帰的であり, 逆過程を通じて潜伏埋め込みの列を生成することを学習し, 並列生成を一定数の反復的精錬ステップで実現する。
この手法をシンボリック音楽のモデル化に適用し,同一の連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
関連論文リスト
- Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Convergence Analysis of Discrete Diffusion Model: Exact Implementation
through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。
我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-12T22:26:52Z) - Fast Sampling via De-randomization for Discrete Diffusion Models [52.554915711265856]
本稿では, 離散拡散モデルの高速化に繋がる非ランダム化拡散過程を提案する。
提案手法は, ニューラルネットワークに対する関数評価の回数を大幅に削減し, サンプリング処理を高速化する。
自然言語生成および機械翻訳タスクの実験は,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-14T18:14:11Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Latent Dynamical Implicit Diffusion Processes [0.0]
潜在動的暗黙拡散過程(LDIDP)と呼ばれる新しい潜時変動モデルを提案する。
LDIDPは暗黙の拡散過程を利用して動的潜伏過程からサンプリングし、それに従って逐次観測サンプルを生成する。
我々は, LDIDP が潜在次元上の力学を正確に学習できることを実証した。
論文 参考訳(メタデータ) (2023-06-12T12:43:27Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Parallel and Flexible Sampling from Autoregressive Models via Langevin
Dynamics [13.097161185372151]
ホワイトノイズでシーケンスを初期化し,Langevin dynamicsによって定義されたマルコフ連鎖に従ってシーケンスのグローバルなログライクな状態を示すサンプリング手順を提案する。
これらの手法を視覚および聴覚領域の自己回帰モデルに適用し,オーディオソース分離,超解像,インペインティングの競争結果と比較した。
論文 参考訳(メタデータ) (2021-05-17T21:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。