論文の概要: Progressive distillation diffusion for raw music generation
- arxiv url: http://arxiv.org/abs/2307.10994v1
- Date: Thu, 20 Jul 2023 16:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:08:57.993978
- Title: Progressive distillation diffusion for raw music generation
- Title(参考訳): 生音楽生成のためのプログレッシブ蒸留拡散
- Authors: Svetlana Pavlova
- Abstract要約: 本稿では,生のオーディオファイルを生成するタスクに,新たなディープラーニングアプローチを適用することを目的とする。
これは近年の深層生成モデルである拡散モデルに基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to apply a new deep learning approach to the task of
generating raw audio files. It is based on diffusion models, a recent type of
deep generative model. This new type of method has recently shown outstanding
results with image generation. A lot of focus has been given to those models by
the computer vision community. On the other hand, really few have been given
for other types of applications such as music generation in waveform domain.
In this paper the model for unconditional generating applied to music is
implemented: Progressive distillation diffusion with 1D U-Net. Then, a
comparison of different parameters of diffusion and their value in a full
result is presented. One big advantage of the methods implemented through this
work is the fact that the model is able to deal with progressing audio
processing and generating , using transformation from 1-channel 128 x 384 to
3-channel 128 x 128 mel-spectrograms and looped generation. The empirical
comparisons are realized across different self-collected datasets.
- Abstract(参考訳): 本稿では,生のオーディオファイルを生成するタスクに,新たなディープラーニングアプローチを適用することを目的とする。
これは近年の深層生成モデルである拡散モデルに基づいている。
この新しい手法は画像生成において際立った結果を示している。
コンピュータビジョンコミュニティによって、これらのモデルに多くの焦点が当てられている。
一方で、波形領域の音楽生成など、他の種類のアプリケーションに対して与えられたものはごくわずかである。
本稿では,1次元u-netを用いたプログレッシブ蒸留拡散の非条件生成モデルを実装した。
次に、拡散の異なるパラメータと完全な結果におけるそれらの値の比較を示す。
この方法で実装された方法の大きな利点は、1チャンネル128×384から3チャンネル128×128メルスペクトログラムへの変換とループ生成を使用して、オーディオ処理と生成の進捗に対処できるという事実である。
経験的比較は、異なる自己収集データセット間で実現される。
関連論文リスト
- SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models [21.669044026456557]
本稿では,大規模画像拡散モデルにおける音声条件設定を実現する手法を提案する。
音声条件付き画像生成に加えて,拡散に基づく編集手法との共役にも利用することができる。
論文 参考訳(メタデータ) (2024-05-01T21:43:57Z) - Fast Diffusion GAN Model for Symbolic Music Generation Controlled by
Emotions [1.6004393678882072]
本稿では,離散的なシンボリック音楽を生成するために,ジェネレーティブ・アドバイサル・ネットワークと組み合わせた拡散モデルを提案する。
まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを得た。
以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
論文 参考訳(メタデータ) (2023-10-21T15:35:43Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - ArchiSound: Audio Generation with Diffusion [0.0]
本研究では,音声生成のための拡散モデルの可能性について検討する。
重畳した1次元U-Netを用いたテキスト条件付き潜在音声拡散手法を提案する。
各モデルに対して、単一のコンシューマGPU上でリアルタイムにターゲットとする、合理的な推論速度の維持に取り組みます。
論文 参考訳(メタデータ) (2023-01-30T20:23:26Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise [52.59444045853966]
画像劣化の選択を変更すれば,生成モデル全体のファミリを構築することができることを示す。
完全な決定論的モデルの成功は、拡散モデルに対するコミュニティの理解に疑問を投げかける。
論文 参考訳(メタデータ) (2022-08-19T15:18:39Z) - Progressive Deblurring of Diffusion Models for Coarse-to-Fine Image
Synthesis [39.671396431940224]
拡散モデルは、徐々にノイズを取り除き、増幅信号を増幅することにより、画像合成において顕著な結果を示した。
本稿では,画像の粗大な合成方法を提案する。
実験の結果,提案手法はLSUNの寝室や教会のデータセットにおいて,従来のFID法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-16T15:00:21Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。