論文の概要: DITTO: Diffusion Inference-Time T-Optimization for Music Generation
- arxiv url: http://arxiv.org/abs/2401.12179v1
- Date: Mon, 22 Jan 2024 18:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:02:30.862929
- Title: DITTO: Diffusion Inference-Time T-Optimization for Music Generation
- Title(参考訳): DITTO:音楽生成のための拡散推論時間T-最適化
- Authors: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J.
Bryan
- Abstract要約: Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
- 参考スコア(独自算出の注目度): 54.51336524107044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose
frame-work for controlling pre-trained text-to-music diffusion models at
inference-time via optimizing initial noise latents. Our method can be used to
optimize through any differentiable feature matching loss to achieve a target
(stylized) output and leverages gradient checkpointing for memory efficiency.
We demonstrate a surprisingly wide-range of applications for music generation
including inpainting, outpainting, and looping as well as intensity, melody,
and musical structure control - all without ever fine-tuning the underlying
model. When we compare our approach against related training, guidance, and
optimization-based methods, we find DITTO achieves state-of-the-art performance
on nearly all tasks, including outperforming comparable approaches on
controllability, audio quality, and computational efficiency, thus opening the
door for high-quality, flexible, training-free control of diffusion models.
Sound examples can be found at https://DITTO-Music.github.io/web/.
- Abstract(参考訳): DITTO(Diffusion Inference-Time T-Optimization)は,初期雑音遅延を最適化することで,事前学習したテキストから音楽への拡散モデルを制御するための汎用フレームワークである。
本手法は,任意の特徴マッチング損失を最適化して,目標(スティル化)出力を実現し,メモリ効率に勾配チェックポインティングを利用する。
我々は、インペイント、アウトペイント、ループ、インテンシティ、メロディ、音楽構造制御など、音楽生成のための驚くほど幅広い応用を、基礎となるモデルを微調整することなく実証する。
私たちが関連するトレーニング、ガイダンス、最適化に基づく手法と比較すると、DITTOは、制御性、オーディオ品質、計算効率に匹敵するアプローチで、ほぼ全てのタスクにおいて最先端のパフォーマンスを実現し、高品質で柔軟な、訓練不要な拡散モデル制御の扉を開くことができる。
サウンドサンプルはhttps://ditto-music.github.io/web/にある。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation [43.61383132919089]
制御可能な音楽生成方法は、人間中心のAIベースの音楽生成に不可欠である。
DITTO-2(Distilled Diffusion Inference-Time T-Optimization)を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:40:11Z) - Music Consistency Models [31.415900049111023]
本稿では,音楽クリップのメル-スペクトログラムを効率よく合成するために,一貫性モデルの概念を活用する音楽一貫性モデル(textttMusicCM)を提案する。
既存のテキストから音楽への拡散モデルに基づいて、textttMusicCMモデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。
実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2024-04-20T11:52:30Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - CDLNet: Noise-Adaptive Convolutional Dictionary Learning Network for
Blind Denoising and Demosaicing [4.975707665155918]
アンロール最適化ネットワークは、ディープニューラルネットワークを構築するための解釈可能な代替手段を提供する。
本稿では,非学習型畳み込み辞書学習ネットワーク(CDLNet)を提案する。
具体的には,提案モデルが類似パラメータ数にスケールした場合に,完全畳み込みモデルやJDDモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-02T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。