Fugu-MT 論文翻訳(概要): DITTO: Diffusion Inference-Time T-Optimization for Music Generation

論文の概要: DITTO: Diffusion Inference-Time T-Optimization for Music Generation

arxiv url: http://arxiv.org/abs/2401.12179v1
Date: Mon, 22 Jan 2024 18:10:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 13:02:30.862929
Title: DITTO: Diffusion Inference-Time T-Optimization for Music Generation
Title（参考訳）: DITTO:音楽生成のための拡散推論時間T-最適化
Authors: Zachary Novack, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
Abstract要約: Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
参考スコア（独自算出の注目度）: 54.51336524107044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Diffusion Inference-Time T-Optimization (DITTO), a general-purpose frame-work for controlling pre-trained text-to-music diffusion models at inference-time via optimizing initial noise latents. Our method can be used to optimize through any differentiable feature matching loss to achieve a target (stylized) output and leverages gradient checkpointing for memory efficiency. We demonstrate a surprisingly wide-range of applications for music generation including inpainting, outpainting, and looping as well as intensity, melody, and musical structure control - all without ever fine-tuning the underlying model. When we compare our approach against related training, guidance, and optimization-based methods, we find DITTO achieves state-of-the-art performance on nearly all tasks, including outperforming comparable approaches on controllability, audio quality, and computational efficiency, thus opening the door for high-quality, flexible, training-free control of diffusion models. Sound examples can be found at https://DITTO-Music.github.io/web/.
Abstract（参考訳）: DITTO(Diffusion Inference-Time T-Optimization)は,初期雑音遅延を最適化することで,事前学習したテキストから音楽への拡散モデルを制御するための汎用フレームワークである。本手法は,任意の特徴マッチング損失を最適化して,目標(スティル化)出力を実現し,メモリ効率に勾配チェックポインティングを利用する。我々は、インペイント、アウトペイント、ループ、インテンシティ、メロディ、音楽構造制御など、音楽生成のための驚くほど幅広い応用を、基礎となるモデルを微調整することなく実証する。私たちが関連するトレーニング、ガイダンス、最適化に基づく手法と比較すると、DITTOは、制御性、オーディオ品質、計算効率に匹敵するアプローチで、ほぼ全てのタスクにおいて最先端のパフォーマンスを実現し、高品質で柔軟な、訓練不要な拡散モデル制御の扉を開くことができる。サウンドサンプルはhttps://ditto-music.github.io/web/にある。

関連論文リスト

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
Optimal Stepsize for Diffusion Sampling [14.849487881523041]
拡散モデルは、優れた生成品質を達成するが、最適以下のステップの離散化による計算集約サンプリングに苦しむ。本稿では,参照軌道から知識を抽出し,理論的に最適なスケジュールを抽出する動的プログラミングフレームワークであるOptimal Stepsize Distillationを提案する。実験では、GenEvalで99.4%のパフォーマンスを維持しながら、10倍の高速化されたテキスト-画像生成を示す。
論文参考訳（メタデータ） (2025-03-27T17:59:46Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文参考訳（メタデータ） (2025-02-20T17:48:45Z)
Efficient Distributed Optimization under Heavy-Tailed Noise [32.96984712007111]
TailOPTは、潜在的に勾配のばらつきと局所的な更新を伴うヘビーテールノイズに対処するように設計されている。 Bi2Clip$は、インナーとアウターの両方でコーディネートワイドクリッピングを行い、アダプティブライクなパフォーマンスを実現する。この$Bi2Clip$は、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-02-06T15:47:18Z)
E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。 Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文参考訳（メタデータ） (2024-12-30T16:06:31Z)
Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文参考訳（メタデータ） (2024-10-29T14:41:44Z)
Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文参考訳（メタデータ） (2024-07-03T17:34:55Z)
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation [43.61383132919089]
制御可能な音楽生成方法は、人間中心のAIベースの音楽生成に不可欠である。 DITTO-2(Distilled Diffusion Inference-Time T-Optimization)を提案する。
論文参考訳（メタデータ） (2024-05-30T17:40:11Z)
Music Consistency Models [31.415900049111023]
本稿では,音楽クリップのメル-スペクトログラムを効率よく合成するために,一貫性モデルの概念を活用する音楽一貫性モデル(textttMusicCM)を提案する。既存のテキストから音楽への拡散モデルに基づいて、textttMusicCMモデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
論文参考訳（メタデータ） (2024-04-20T11:52:30Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文参考訳（メタデータ） (2023-10-31T00:12:14Z)
Towards More Accurate Diffusion Model Acceleration with A Timestep Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文参考訳（メタデータ） (2023-10-14T02:19:07Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Speech Enhancement and Dereverberation with Diffusion-based Generative Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文参考訳（メタデータ） (2022-08-11T13:55:12Z)
CDLNet: Noise-Adaptive Convolutional Dictionary Learning Network for Blind Denoising and Demosaicing [4.975707665155918]
アンロール最適化ネットワークは、ディープニューラルネットワークを構築するための解釈可能な代替手段を提供する。本稿では,非学習型畳み込み辞書学習ネットワーク(CDLNet)を提案する。具体的には,提案モデルが類似パラメータ数にスケールした場合に,完全畳み込みモデルやJDDモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2021-12-02T01:23:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。