論文の概要: One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling
- arxiv url: http://arxiv.org/abs/2505.13358v1
- Date: Mon, 19 May 2025 16:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.757525
- Title: One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling
- Title(参考訳): クープマンモデリングによる拡散モデルの一段階オフライン蒸留
- Authors: Nimrod Berman, Ilan Naiman, Moshe Eliasof, Hedi Zisling, Omri Azencot,
- Abstract要約: 我々は、クープマン理論に基づく新しいオフライン蒸留手法であるクープマン蒸留モデルKDMを紹介する。
KDMは、学習された線形作用素がそれらを前方に伝播する埋め込み空間にノイズのある入力を符号化し、続いてクリーンなサンプルを再構成するデコーダを符号化する。
KDMは、標準的なオフライン蒸留ベンチマークで最先端のパフォーマンスを達成し、単一の生成ステップでFIDスコアを最大40%改善する。
- 参考スコア(独自算出の注目度): 10.777010241918548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models have demonstrated exceptional performance, yet their iterative sampling procedures remain computationally expensive. A prominent strategy to mitigate this cost is distillation, with offline distillation offering particular advantages in terms of efficiency, modularity, and flexibility. In this work, we identify two key observations that motivate a principled distillation framework: (1) while diffusion models have been viewed through the lens of dynamical systems theory, powerful and underexplored tools can be further leveraged; and (2) diffusion models inherently impose structured, semantically coherent trajectories in latent space. Building on these observations, we introduce the Koopman Distillation Model KDM, a novel offline distillation approach grounded in Koopman theory-a classical framework for representing nonlinear dynamics linearly in a transformed space. KDM encodes noisy inputs into an embedded space where a learned linear operator propagates them forward, followed by a decoder that reconstructs clean samples. This enables single-step generation while preserving semantic fidelity. We provide theoretical justification for our approach: (1) under mild assumptions, the learned diffusion dynamics admit a finite-dimensional Koopman representation; and (2) proximity in the Koopman latent space correlates with semantic similarity in the generated outputs, allowing for effective trajectory alignment. Empirically, KDM achieves state-of-the-art performance across standard offline distillation benchmarks, improving FID scores by up to 40% in a single generation step. All implementation details and code for the experimental setups are provided in our GitHub - https://github.com/azencot-group/KDM, or in our project page - https://sites.google.com/view/koopman-distillation-model.
- Abstract(参考訳): 拡散に基づく生成モデルは例外的な性能を示したが、反復的なサンプリング手順は計算上は高価である。
このコストを軽減するための重要な戦略は蒸留であり、オフライン蒸留は効率、モジュール性、柔軟性の点で特に利点がある。
本研究では,(1) 拡散モデルが力学系理論のレンズを通して観察されている一方で, 強力な, 未探索のツールがさらに活用可能であること,(2) 拡散モデルが潜在空間に構造的, 意味的コヒーレントな軌道を本質的に課していること,の2つの主要な観察点を同定する。
クープマン理論に基づく新しいオフライン蒸留手法であるクープマン蒸留モデルKDMを導入する。
KDMは、学習された線形作用素がそれらを前方に伝播する埋め込み空間にノイズのある入力を符号化し、続いてクリーンなサンプルを再構成するデコーダを符号化する。
これにより、セマンティックな忠実さを維持しながらシングルステップ生成が可能になる。
1) 弱い仮定の下では、学習された拡散力学は有限次元のクープマン表現を許容し、(2) クープマンラテント空間の近接は生成した出力のセマンティックな類似性と相関し、効果的な軌道アライメントを可能にする。
実証的に、KDMは標準的なオフライン蒸留ベンチマークで最先端のパフォーマンスを達成し、1世代でFIDスコアを最大40%改善する。
実験的なセットアップに関するすべての実装の詳細とコードは、GitHub - https://github.com/azencot-group/KDM、またはプロジェクトページ - https://sites.google.com/view/koopman-distillation-modelで提供されている。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps [19.573246885611923]
確率的マルチスケールモデルにおける根本的な難しさを克服しさえすれば、カスケードモデルは優れた確率モデルになり得ることを示す。
主にカスケードモデルにおいて、各中間スケールは、可能性評価のために取り除くことができない余剰変数を導入している。
また、ラプラシアピラミッドとウェーブレット変換は、確率モデルにおけるベンチマークの選択における最先端の大幅な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-01-13T01:20:23Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Improving Consistency Models with Generator-Augmented Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。
それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。
本稿では,一貫性モデルから得られたノイズデータを対応する出力へ転送する新しい流れを提案する。
論文 参考訳(メタデータ) (2024-06-13T20:22:38Z) - Koopman-Based Surrogate Modelling of Turbulent Rayleigh-Bénard Convection [4.248022697109535]
我々は,LRAN(Linear Recurrent Autoencoder Network)と呼ばれるクープマンにインスパイアされたアーキテクチャを用いて,対流中の低次ダイナミクスを学習する。
従来の流体力学法であるKernel Dynamic Mode Decomposition (KDMD)を用いてLRANを比較する。
我々は,最も乱流条件下では,KDMDよりもLRANの方が正確な予測値を得た。
論文 参考訳(メタデータ) (2024-05-10T12:15:02Z) - DiffEnc: Variational Diffusion with a Learned Encoder [14.045374947755922]
拡散過程にデータと深度に依存した平均関数を導入し,拡散損失を改良した。
提案するフレームワークであるDiffEncは,CIFAR-10の確率を統計的に有意に向上させる。
論文 参考訳(メタデータ) (2023-10-30T17:54:36Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。