論文の概要: STORK: Improving the Fidelity of Mid-NFE Sampling for Diffusion and Flow Matching Models
- arxiv url: http://arxiv.org/abs/2505.24210v1
- Date: Fri, 30 May 2025 04:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.773673
- Title: STORK: Improving the Fidelity of Mid-NFE Sampling for Diffusion and Flow Matching Models
- Title(参考訳): STORK:拡散・流れマッチングモデルにおけるミッドNFEサンプリングの忠実度向上
- Authors: Zheng Tan, Weizhen Wang, Andrea L. Bertozzi, Ernest K. Ryu,
- Abstract要約: 本稿では,安定化テイラー直交ルンゲ-クッタ法 (STORK) と呼ばれる,新しい,トレーニング不要で構造に依存しないDMODEソルバを提案する。
STORKは、FIDスコアによって測定された、無条件画素レベル生成と条件付き潜在空間生成タスクで生成品質を改善する。
- 参考スコア(独自算出の注目度): 13.586955641566316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) have demonstrated remarkable performance in high-fidelity image and video generation. Because high-quality generations with DMs typically require a large number of function evaluations (NFEs), resulting in slow sampling, there has been extensive research successfully reducing the NFE to a small range (<10) while maintaining acceptable image quality. However, many practical applications, such as those involving Stable Diffusion 3.5, FLUX, and SANA, commonly operate in the mid-NFE regime (20-50 NFE) to achieve superior results, and, despite the practical relevance, research on the effective sampling within this mid-NFE regime remains underexplored. In this work, we propose a novel, training-free, and structure-independent DM ODE solver called the Stabilized Taylor Orthogonal Runge--Kutta (STORK) method, based on a class of stiff ODE solvers with a Taylor expansion adaptation. Unlike prior work such as DPM-Solver, which is dependent on the semi-linear structure of the DM ODE, STORK is applicable to any DM sampling, including noise-based and flow matching-based models. Within the 20-50 NFE range, STORK achieves improved generation quality, as measured by FID scores, across unconditional pixel-level generation and conditional latent-space generation tasks using models like Stable Diffusion 3.5 and SANA. Code is available at https://github.com/ZT220501/STORK.
- Abstract(参考訳): 拡散モデル(DM)は高忠実度画像とビデオ生成において顕著な性能を示した。
DMを用いた高品質な世代は、通常、大量の機能評価(NFE)を必要とするため、サンプリングが遅くなるため、画像の品質を維持しつつ、NFEを小さい範囲(10)まで下げることに成功している。
しかし、安定拡散3.5、FLUX、SANAを含む多くの実用的応用は、通常、NFE中期(20-50 NFE)において優れた結果を得るために運用されており、実際的な関連性にもかかわらず、この中NFE中期の体制における効果的なサンプリングの研究は未検討のままである。
本研究では,STORK法(Stbilized Taylor Orthogonal Runge--Kutta)と呼ばれる新しい非依存型DM ODEソルバを提案する。
DMODEの半線形構造に依存するDPM-Solverのような以前の研究とは異なり、STORKはノイズベースやフローマッチングベースのモデルを含むあらゆるDMサンプリングに適用できる。
20-50 NFEの範囲内において、STORKは、FIDスコアによって測定された、安定拡散3.5やSANAのようなモデルを用いた、無条件のピクセルレベル生成と条件付きラテントスペース生成タスク間で、より良い生成品質を達成する。
コードはhttps://github.com/ZT220501/STORKで入手できる。
関連論文リスト
- PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - Enhancing and Accelerating Diffusion-Based Inverse Problem Solving through Measurements Optimization [66.17291150498276]
textbfMeasurements textbfOptimization (MO)は,逆問題解決プロセスの各ステップで計測情報を統合するための,より効率的なプラグイン・アンド・プレイモジュールである。
MOを使用することで、複数のタスクにまたがる最新技術(SOTA)のパフォーマンスを確立することができ、大きな利点があります。
論文 参考訳(メタデータ) (2024-12-05T07:44:18Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - PFDiff: Training-Free Acceleration of Diffusion Models Combining Past and Future Scores [4.595421654683656]
拡散確率モデル(DPM)は画像生成において顕著な可能性を示している。
既存のほとんどのソリューションは、高速ODEソルバを提案することでサンプリングプロセスを加速する。
我々は、既存の高速ODEソルバを少ないNFEで動作させることができる新しいトレーニングフリーかつタイムステップスキッピング戦略であるPFDiffを提案する。
論文 参考訳(メタデータ) (2024-08-16T16:12:44Z) - PFCM: Poisson flow consistency models for low-dose CT image denoising [3.3153763098433258]
PFCMは,PFGM++のロバスト性と一貫性モデルの効率的な単一ステップサンプリングを組み合わせた,深層生成モデルの新たなファミリーである。
我々は, PFCM を低用量CT画像復調作業に応用するために, 生成過程をハイジャックするタスク種別サンプリング装置を用いて活用する。
その結果, LPIPS, SSIM, PSNRを用いて, マヨ低線量CTデータセット上で優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-13T01:39:56Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。