論文の概要: $\textrm{ODE}_t \left(\textrm{ODE}_l \right)$: Shortcutting the Time and Length in Diffusion and Flow Models for Faster Sampling
- arxiv url: http://arxiv.org/abs/2506.21714v1
- Date: Thu, 26 Jun 2025 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.981953
- Title: $\textrm{ODE}_t \left(\textrm{ODE}_l \right)$: Shortcutting the Time and Length in Diffusion and Flow Models for Faster Sampling
- Title(参考訳): $\textrm{ODE}_t \left(\textrm{ODE}_l \right)$: 高速サンプリングのための拡散とフローモデルにおける時間と長さのショートカット
- Authors: Denis Gudovskiy, Wenzhao Zheng, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer,
- Abstract要約: 本研究では,品質・複雑さのトレードオフを動的に制御できる相補的な方向について検討する。
我々は,フローマッチングトレーニング中に時間と長さの整合性項を用い,任意の時間ステップでサンプリングを行うことができる。
従来の技術と比較すると、CelebA-HQとImageNetのイメージ生成実験では、最も効率的なサンプリングモードで最大3倍のレイテンシ低下が見られた。
- 参考スコア(独自算出の注目度): 33.87434194582367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, continuous normalizing flows (CNFs) and diffusion models (DMs) have been studied using the unified theoretical framework. Although such models can generate high-quality data points from a noise distribution, the sampling demands multiple iterations to solve an ordinary differential equation (ODE) with high computational complexity. Most existing methods focus on reducing the number of time steps during the sampling process to improve efficiency. In this work, we explore a complementary direction in which the quality-complexity tradeoff can be dynamically controlled in terms of time steps and in the length of the neural network. We achieve this by rewiring the blocks in the transformer-based architecture to solve an inner discretized ODE w.r.t. its length. Then, we employ time- and length-wise consistency terms during flow matching training, and as a result, the sampling can be performed with an arbitrary number of time steps and transformer blocks. Unlike others, our $\textrm{ODE}_t \left(\textrm{ODE}_l \right)$ approach is solver-agnostic in time dimension and decreases both latency and memory usage. Compared to the previous state of the art, image generation experiments on CelebA-HQ and ImageNet show a latency reduction of up to $3\times$ in the most efficient sampling mode, and a FID score improvement of up to $3.5$ points for high-quality sampling. We release our code and model weights with fully reproducible experiments.
- Abstract(参考訳): 近年, 連続正規化流 (CNFs) と拡散モデル (DMs) が統一理論フレームワークを用いて研究されている。
このようなモデルは、ノイズ分布から高品質なデータポイントを生成することができるが、サンプリングは、通常の微分方程式(ODE)を高い計算複雑性で解くために、複数の繰り返しを要求する。
既存の手法の多くは、サンプリングプロセス中の時間ステップの削減と効率の向上に重点を置いている。
本研究では,ニューラルネットワークの時間ステップと長さの観点から,品質・複雑さのトレードオフを動的に制御できる相補的な方向について検討する。
変換器アーキテクチャのブロックを書き換えて、内部の離散化ODE w.r.t.をその長さで解くことで、これを実現する。
そして,フローマッチングトレーニング中に時間と長さの整合性項を用い,任意の時間ステップと変圧器ブロックを用いてサンプリングを行う。
他のものとは異なり、$\textrm{ODE}_t \left(\textrm{ODE}_l \right)$アプローチは時間次元において解決不可能であり、レイテンシとメモリ使用量の両方を削減する。
これまでの最先端と比較して、CelebA-HQとImageNetのイメージ生成実験では、最も効率的なサンプリングモードでは、レイテンシが最大$3\times$で、高品質サンプリングではFIDスコアが最大$3.5$ポイント改善されている。
完全に再現可能な実験で、コードとモデルウェイトをリリースします。
関連論文リスト
- Accelerating Diffusion Models with Parallel Sampling: Inference at Sub-Linear Time Complexity [11.71206628091551]
拡散モデルは、訓練と評価に費用がかかるため、拡散モデルの推論コストを削減することが大きな目標である。
並列サンプリング手法であるHh2024parallelを用いて拡散モデルを高速化する実験的な成功に触発されて,サンプリングプロセスを各ブロック内に並列化可能なPicard繰り返しを持つ$mathcalO(1)$ブロックに分割することを提案する。
我々の結果は、高速で効率的な高次元データサンプリングの可能性に光を当てた。
論文 参考訳(メタデータ) (2024-05-24T23:59:41Z) - Accelerating Diffusion Sampling with Optimized Time Steps [69.21208434350567]
拡散確率モデル(DPM)は高分解能画像合成において顕著な性能を示した。
彼らのサンプリング効率は、通常多くのサンプリングステップのため、依然として望まれている。
DPM用高次数値ODEソルバの最近の進歩により、サンプリングステップがはるかに少ない高品質な画像の生成が可能になった。
論文 参考訳(メタデータ) (2024-02-27T10:13:30Z) - Accelerating Parallel Sampling of Diffusion Models [25.347710690711562]
自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。
これらの手法を適用したParaTAAは、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。
実験により、ParaTAAは一般的なシーケンシャルサンプリングアルゴリズムで要求される推論ステップを4$sim$14倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-15T14:27:58Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。