論文の概要: STORK: Faster Diffusion And Flow Matching Sampling By Resolving Both Stiffness And Structure-Dependence
- arxiv url: http://arxiv.org/abs/2505.24210v2
- Date: Wed, 01 Oct 2025 03:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.601282
- Title: STORK: Faster Diffusion And Flow Matching Sampling By Resolving Both Stiffness And Structure-Dependence
- Title(参考訳): STORK: 剛性と構造依存性の両解決による拡散とフローマッチングの高速化
- Authors: Zheng Tan, Weizhen Wang, Andrea L. Bertozzi, Ernest K. Ryu,
- Abstract要約: 拡散モデル (DM) とフローマッチングモデルは画像およびビデオ生成において顕著な性能を示した。
しかし、そのようなモデルはサンプリング中にかなりの数の関数評価(NFE)を必要とするため、コストがかかる。
本稿では,安定化テイラー直交ランジュ・クッタ法(STORK)を提案する。
- 参考スコア(独自算出の注目度): 23.809451626099627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) and flow-matching models have demonstrated remarkable performance in image and video generation. However, such models require a significant number of function evaluations (NFEs) during sampling, leading to costly inference. Consequently, quality-preserving fast sampling methods that require fewer NFEs have been an active area of research. However, prior training-free sampling methods fail to simultaneously address two key challenges: the stiffness of the ODE (i.e., the non-straightness of the velocity field) and dependence on the semi-linear structure of the DM ODE (which limits their direct applicability to flow-matching models). In this work, we introduce the Stabilized Taylor Orthogonal Runge--Kutta (STORK) method, addressing both design concerns. We demonstrate that STORK consistently improves the quality of diffusion and flow-matching sampling for image and video generation. Code is available at https://github.com/ZT220501/STORK.
- Abstract(参考訳): 拡散モデル (DM) とフローマッチングモデルは画像およびビデオ生成において顕著な性能を示した。
しかし、そのようなモデルはサンプリング中にかなりの数の関数評価(NFE)を必要とするため、コストがかかる。
その結果,NFEの少ない品質保持型高速サンプリング法が研究の活発な領域となった。
しかし、事前のトレーニング不要サンプリング法は、ODEの剛性(すなわち速度場の非直線性)とDMODEの半線形構造(フローマッチングモデルへの直接適用性を制限する)の2つの主要な課題に同時に対処することができない。
本研究では,安定化テイラー直交ルンゲ-クッタ法(STORK)を提案する。
我々は,STORKが画像およびビデオ生成のための拡散・流れマッチングサンプリングの質を一貫して改善することを実証した。
コードはhttps://github.com/ZT220501/STORKで入手できる。
関連論文リスト
- Sparse-to-Sparse Training of Diffusion Models [13.443846454835867]
本稿では,DMに対するスパース・ツー・スパーストレーニングのパラダイムを初めて紹介する。
我々は、無条件生成と6つのデータセットでスクラッチからスパースDMを訓練することに重点を置いている。
実験の結果,スパースDMはトレーニング可能なパラメータやFLOPの数を著しく減らしながら,相性が良く,性能も優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-30T07:28:11Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - S4S: Solving for a Diffusion Model Solver [52.99341671532249]
拡散モデル(DM)は、ランダムノイズから始まり、逆時間常微分方程式(ODE)を解くことによって、データ分布からサンプルを作成する。
我々は、Solving for the Solver(S4S)と呼ばれるDMのための優れた解法を学ぶ新しい方法を提案する。
すべての設定において、S4Sは従来のODEソルバと比較してサンプル品質を均一に改善する。
論文 参考訳(メタデータ) (2025-02-24T18:55:54Z) - Enhancing and Accelerating Diffusion-Based Inverse Problem Solving through Measurements Optimization [66.17291150498276]
textbfMeasurements textbfOptimization (MO)は,逆問題解決プロセスの各ステップで計測情報を統合するための,より効率的なプラグイン・アンド・プレイモジュールである。
MOを使用することで、複数のタスクにまたがる最新技術(SOTA)のパフォーマンスを確立することができ、大きな利点があります。
論文 参考訳(メタデータ) (2024-12-05T07:44:18Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Consistency Diffusion Bridge Models [25.213664260896103]
拡散ブリッジモデル(DDBM)は、参照拡散プロセスに基づいて、固定データエンドポイント間でプロセスを構築する。
DDBMのサンプリングプロセスは通常、良好な性能を達成するために何百ものネットワーク評価を必要とする。
本稿では, DDBMに適用可能な整合性ブリッジ蒸留と整合性ブリッジ訓練の2つのパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-30T02:04:23Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - PFDiff: Training-Free Acceleration of Diffusion Models Combining Past and Future Scores [4.595421654683656]
拡散確率モデル(DPM)は画像生成において顕著な可能性を示している。
既存のほとんどのソリューションは、高速ODEソルバを提案することでサンプリングプロセスを加速する。
我々は、既存の高速ODEソルバを少ないNFEで動作させることができる新しいトレーニングフリーかつタイムステップスキッピング戦略であるPFDiffを提案する。
論文 参考訳(メタデータ) (2024-08-16T16:12:44Z) - PFCM: Poisson flow consistency models for low-dose CT image denoising [3.3153763098433258]
PFCMは,PFGM++のロバスト性と一貫性モデルの効率的な単一ステップサンプリングを組み合わせた,深層生成モデルの新たなファミリーである。
我々は, PFCM を低用量CT画像復調作業に応用するために, 生成過程をハイジャックするタスク種別サンプリング装置を用いて活用する。
その結果, LPIPS, SSIM, PSNRを用いて, マヨ低線量CTデータセット上で優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-13T01:39:56Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。