論文の概要: STORK: Improving the Fidelity of Mid-NFE Sampling for Diffusion and Flow Matching Models
- arxiv url: http://arxiv.org/abs/2505.24210v1
- Date: Fri, 30 May 2025 04:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.773673
- Title: STORK: Improving the Fidelity of Mid-NFE Sampling for Diffusion and Flow Matching Models
- Title(参考訳): STORK:拡散・流れマッチングモデルにおけるミッドNFEサンプリングの忠実度向上
- Authors: Zheng Tan, Weizhen Wang, Andrea L. Bertozzi, Ernest K. Ryu,
- Abstract要約: 本稿では,安定化テイラー直交ルンゲ-クッタ法 (STORK) と呼ばれる,新しい,トレーニング不要で構造に依存しないDMODEソルバを提案する。
STORKは、FIDスコアによって測定された、無条件画素レベル生成と条件付き潜在空間生成タスクで生成品質を改善する。
- 参考スコア(独自算出の注目度): 13.586955641566316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) have demonstrated remarkable performance in high-fidelity image and video generation. Because high-quality generations with DMs typically require a large number of function evaluations (NFEs), resulting in slow sampling, there has been extensive research successfully reducing the NFE to a small range (<10) while maintaining acceptable image quality. However, many practical applications, such as those involving Stable Diffusion 3.5, FLUX, and SANA, commonly operate in the mid-NFE regime (20-50 NFE) to achieve superior results, and, despite the practical relevance, research on the effective sampling within this mid-NFE regime remains underexplored. In this work, we propose a novel, training-free, and structure-independent DM ODE solver called the Stabilized Taylor Orthogonal Runge--Kutta (STORK) method, based on a class of stiff ODE solvers with a Taylor expansion adaptation. Unlike prior work such as DPM-Solver, which is dependent on the semi-linear structure of the DM ODE, STORK is applicable to any DM sampling, including noise-based and flow matching-based models. Within the 20-50 NFE range, STORK achieves improved generation quality, as measured by FID scores, across unconditional pixel-level generation and conditional latent-space generation tasks using models like Stable Diffusion 3.5 and SANA. Code is available at https://github.com/ZT220501/STORK.
- Abstract(参考訳): 拡散モデル(DM)は高忠実度画像とビデオ生成において顕著な性能を示した。
DMを用いた高品質な世代は、通常、大量の機能評価(NFE)を必要とするため、サンプリングが遅くなるため、画像の品質を維持しつつ、NFEを小さい範囲(10)まで下げることに成功している。
しかし、安定拡散3.5、FLUX、SANAを含む多くの実用的応用は、通常、NFE中期(20-50 NFE)において優れた結果を得るために運用されており、実際的な関連性にもかかわらず、この中NFE中期の体制における効果的なサンプリングの研究は未検討のままである。
本研究では,STORK法(Stbilized Taylor Orthogonal Runge--Kutta)と呼ばれる新しい非依存型DM ODEソルバを提案する。
DMODEの半線形構造に依存するDPM-Solverのような以前の研究とは異なり、STORKはノイズベースやフローマッチングベースのモデルを含むあらゆるDMサンプリングに適用できる。
20-50 NFEの範囲内において、STORKは、FIDスコアによって測定された、安定拡散3.5やSANAのようなモデルを用いた、無条件のピクセルレベル生成と条件付きラテントスペース生成タスク間で、より良い生成品質を達成する。
コードはhttps://github.com/ZT220501/STORKで入手できる。
関連論文リスト
- Sparse-to-Sparse Training of Diffusion Models [13.443846454835867]
本稿では,DMに対するスパース・ツー・スパーストレーニングのパラダイムを初めて紹介する。
我々は、無条件生成と6つのデータセットでスクラッチからスパースDMを訓練することに重点を置いている。
実験の結果,スパースDMはトレーニング可能なパラメータやFLOPの数を著しく減らしながら,相性が良く,性能も優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-30T07:28:11Z) - PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity [9.092404060771306]
拡散モデルでは、高品質な条件付きサンプルの生成に顕著な結果が示されている。
しかし、既存の方法は、しばしば追加のトレーニングや神経機能評価(NFE)を必要とする。
本稿では,スパースアテンションを生かして事前学習モデルを強化する,PLADISと呼ばれる新しい,効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T07:23:19Z) - S4S: Solving for a Diffusion Model Solver [52.99341671532249]
拡散モデル(DM)は、ランダムノイズから始まり、逆時間常微分方程式(ODE)を解くことによって、データ分布からサンプルを作成する。
我々は、Solving for the Solver(S4S)と呼ばれるDMのための優れた解法を学ぶ新しい方法を提案する。
すべての設定において、S4Sは従来のODEソルバと比較してサンプル品質を均一に改善する。
論文 参考訳(メタデータ) (2025-02-24T18:55:54Z) - Enhancing and Accelerating Diffusion-Based Inverse Problem Solving through Measurements Optimization [66.17291150498276]
textbfMeasurements textbfOptimization (MO)は,逆問題解決プロセスの各ステップで計測情報を統合するための,より効率的なプラグイン・アンド・プレイモジュールである。
MOを使用することで、複数のタスクにまたがる最新技術(SOTA)のパフォーマンスを確立することができ、大きな利点があります。
論文 参考訳(メタデータ) (2024-12-05T07:44:18Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Consistency Diffusion Bridge Models [25.213664260896103]
拡散ブリッジモデル(DDBM)は、参照拡散プロセスに基づいて、固定データエンドポイント間でプロセスを構築する。
DDBMのサンプリングプロセスは通常、良好な性能を達成するために何百ものネットワーク評価を必要とする。
本稿では, DDBMに適用可能な整合性ブリッジ蒸留と整合性ブリッジ訓練の2つのパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-30T02:04:23Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - PFDiff: Training-Free Acceleration of Diffusion Models Combining Past and Future Scores [4.595421654683656]
拡散確率モデル(DPM)は画像生成において顕著な可能性を示している。
既存のほとんどのソリューションは、高速ODEソルバを提案することでサンプリングプロセスを加速する。
我々は、既存の高速ODEソルバを少ないNFEで動作させることができる新しいトレーニングフリーかつタイムステップスキッピング戦略であるPFDiffを提案する。
論文 参考訳(メタデータ) (2024-08-16T16:12:44Z) - PFCM: Poisson flow consistency models for low-dose CT image denoising [3.3153763098433258]
PFCMは,PFGM++のロバスト性と一貫性モデルの効率的な単一ステップサンプリングを組み合わせた,深層生成モデルの新たなファミリーである。
我々は, PFCM を低用量CT画像復調作業に応用するために, 生成過程をハイジャックするタスク種別サンプリング装置を用いて活用する。
その結果, LPIPS, SSIM, PSNRを用いて, マヨ低線量CTデータセット上で優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-13T01:39:56Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。