論文の概要: DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation
- arxiv url: http://arxiv.org/abs/2405.20289v1
- Date: Thu, 30 May 2024 17:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:09:46.945693
- Title: DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation
- Title(参考訳): DITTO-2:Diffusion Inference-Time T-Optimization for Music Generation
- Authors: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas Bryan,
- Abstract要約: 制御可能な音楽生成方法は、人間中心のAIベースの音楽生成に不可欠である。
DITTO-2(Distilled Diffusion Inference-Time T-Optimization)を提案する。
- 参考スコア(独自算出の注目度): 43.61383132919089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable music generation methods are critical for human-centered AI-based music creation, but are currently limited by speed, quality, and control design trade-offs. Diffusion Inference-Time T-optimization (DITTO), in particular, offers state-of-the-art results, but is over 10x slower than real-time, limiting practical use. We propose Distilled Diffusion Inference-Time T -Optimization (or DITTO-2), a new method to speed up inference-time optimization-based control and unlock faster-than-real-time generation for a wide-variety of applications such as music inpainting, outpainting, intensity, melody, and musical structure control. Our method works by (1) distilling a pre-trained diffusion model for fast sampling via an efficient, modified consistency or consistency trajectory distillation process (2) performing inference-time optimization using our distilled model with one-step sampling as an efficient surrogate optimization task and (3) running a final multi-step sampling generation (decoding) using our estimated noise latents for best-quality, fast, controllable generation. Through thorough evaluation, we find our method not only speeds up generation over 10-20x, but simultaneously improves control adherence and generation quality all at once. Furthermore, we apply our approach to a new application of maximizing text adherence (CLAP score) and show we can convert an unconditional diffusion model without text inputs into a model that yields state-of-the-art text control. Sound examples can be found at https://ditto-music.github.io/ditto2/.
- Abstract(参考訳): 制御可能な音楽生成方法は、人間中心のAIベースの音楽生成には不可欠であるが、現在、速度、品質、制御設計のトレードオフによって制限されている。
Diffusion Inference-Time T-Optimization (DITTO)は、特に最先端の結果を提供するが、リアルタイムよりも10倍以上遅いため、実用性に制限がある。
DITTO-2(Distilled Diffusion Inffusion Inference-Time T-Optimization)は,音楽のインペインティング,アウトペインティング,インテンシティ,メロディ,音楽構造制御といった多種多様なアプリケーションに対して,推論時間に基づく制御を高速化し,リアルタイム生成を高速化する新しい手法である。
提案手法は,(1)効率良く改良された整合性または整合性トラジェクトリ蒸留プロセスによる高速サンプリングのための事前学習拡散モデルを蒸留し,(2)効率の良いサロゲート最適化タスクとして1段階サンプリングを用いた蒸留モデルを用いて推論時間最適化を行い,(3)最良かつ高速かつ制御可能な生成のために,推定されたノイズ潜水器を用いて最終多段階サンプリング生成(復号)を実行することにより機能する。
徹底的な評価により,本手法は生成速度を10~20倍に向上するだけでなく,制御の順守と生成品質を同時に向上させる。
さらに,本手法をテキストアテンデンス(CLAPスコア)を最大化する新しい応用に適用し,テキスト入力を使わずに非条件拡散モデルを最先端のテキスト制御を行うモデルに変換することを示す。
音の例はhttps://ditto-music.github.io/ditto2/にある。
関連論文リスト
- Diffusion Models as Optimizers for Efficient Planning in Offline RL [47.0835433289033]
拡散モデルはオフラインの強化学習タスクにおいて強い競争力を示している。
本稿では,より高速な自己回帰モデルを提案する。
これにより、能力を犠牲にすることなく、より効率的な計画を達成することができます。
論文 参考訳(メタデータ) (2024-07-23T03:00:01Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - Learning to Efficiently Sample from Diffusion Probabilistic Models [49.58748345998702]
Denoising Diffusion Probabilistic Models (DDPM) は、様々な領域にわたる高忠実度サンプルと競合する対数類似度が得られる。
我々は,事前学習したDDPMに対して最適な離散時間スケジュールを求める,正確な動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T17:15:07Z) - Bi-level Off-policy Reinforcement Learning for Volt/VAR Control
Involving Continuous and Discrete Devices [2.079959811127612]
Volt/Varコントロールでは、スロータイムスケールの離散デバイス(STDD)と高速タイムスケールの連続デバイス(FTCD)の両方が関与する。
従来の最適化手法はシステムの正確なモデルに強く依存しているが、モデル化に対する耐え難い努力のために実用的でない場合もある。
本論文では, この問題をモデルフリーで解くために, RL(バイレベル・オフポリシ強化学習)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-13T02:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。