論文の概要: LeDiFlow: Learned Distribution-guided Flow Matching to Accelerate Image Generation
- arxiv url: http://arxiv.org/abs/2505.20723v1
- Date: Tue, 27 May 2025 05:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.414208
- Title: LeDiFlow: Learned Distribution-guided Flow Matching to Accelerate Image Generation
- Title(参考訳): LeDiFlow: 画像生成を高速化する分散誘導流マッチングの学習
- Authors: Pascal Zwick, Nils Friederich, Maximilian Beichter, Lennart Hilbert, Ralf Mikut, Oliver Bringmann,
- Abstract要約: Flow Matching(FM)は、DMで使用されるスコアベースではなく、シミュレーションなしのトレーニング目標に基づく強力な生成モデリングパラダイムである。
本稿では,FMベースの画像生成モデルを学習するための新しいスケーラブルな手法であるLearted Distribution-guided Flow Matching(LeDiFlow)を提案する。
提案手法では,ステートオフ・ザ・アルト (SOTA) トランスフォーマーアーキテクチャと遅延空間サンプリングを併用し,コンシューマー向けワークステーションでトレーニングを行う。
- 参考スコア(独自算出の注目度): 1.1847464266302488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing the efficiency of high-quality image generation using Diffusion Models (DMs) is a significant challenge due to the iterative nature of the process. Flow Matching (FM) is emerging as a powerful generative modeling paradigm based on a simulation-free training objective instead of a score-based one used in DMs. Typical FM approaches rely on a Gaussian distribution prior, which induces curved, conditional probability paths between the prior and target data distribution. These curved paths pose a challenge for the Ordinary Differential Equation (ODE) solver, requiring a large number of inference calls to the flow prediction network. To address this issue, we present Learned Distribution-guided Flow Matching (LeDiFlow), a novel scalable method for training FM-based image generation models using a better-suited prior distribution learned via a regression-based auxiliary model. By initializing the ODE solver with a prior closer to the target data distribution, LeDiFlow enables the learning of more computationally tractable probability paths. These paths directly translate to fewer solver steps needed for high-quality image generation at inference time. Our method utilizes a State-Of-The-Art (SOTA) transformer architecture combined with latent space sampling and can be trained on a consumer workstation. We empirically demonstrate that LeDiFlow remarkably outperforms the respective FM baselines. For instance, when operating directly on pixels, our model accelerates inference by up to 3.75x compared to the corresponding pixel-space baseline. Simultaneously, our latent FM model enhances image quality on average by 1.32x in CLIP Maximum Mean Discrepancy (CMMD) metric against its respective baseline.
- Abstract(参考訳): 拡散モデル (DM) を用いた高画質画像生成の効率向上は, プロセスの反復性のために大きな課題である。
Flow Matching (FM) は、DMで使用されるスコアベースではなく、シミュレーションなしのトレーニング目標に基づく強力な生成モデルパラダイムとして出現している。
典型的なFM手法はガウス分布に依拠し、先行データ分布と目標データ分布の間の曲線的、条件付き確率経路を誘導する。
これらの曲線は正規微分方程式(ODE)の解法に挑戦し、フロー予測ネットワークへの大量の推論コールを必要とする。
この問題を解決するために、回帰型補助モデルを用いて学習したより適切な事前分布を用いてFMベースの画像生成モデルをトレーニングするための新しいスケーラブルな方法であるLearted Distribution-guided Flow Matching(LeDiFlow)を提案する。
ODEソルバを目標データ分布に先行して初期化することにより、LeDiFlowはより計算的に抽出可能な確率パスの学習を可能にする。
これらの経路は直接的に推論時に高品質の画像生成に必要なソルバステップを減らします。
提案手法は,ステートオフ・ザ・アルト (SOTA) トランスフォーマーアーキテクチャと遅延空間サンプリングを組み合わせることで,コンシューマー向けワークステーション上でのトレーニングを可能にする。
我々は、LeDiFlowがそれぞれのFMベースラインを著しく上回っていることを実証的に実証した。
例えば、ピクセルを直接操作する場合、対応するピクセル空間ベースラインと比較して、我々のモデルは推論を最大3.75倍加速する。
同時に、我々の潜時FMモデルは、CLIPの最大平均離散値(CMMD)の基準値に対して平均1.32倍の画像品質を向上する。
関連論文リスト
- An Ordinary Differential Equation Sampler with Stochastic Start for Diffusion Bridge Models [13.00429687431982]
拡散ブリッジモデルは、純粋なガウスノイズではなく、劣化した画像から生成過程を初期化する。
既存の拡散ブリッジモデルは、しばしば微分方程式のサンプリングに頼り、推論速度が遅くなる。
拡散ブリッジモデルの開始点を有する高次ODEサンプリング器を提案する。
本手法は, 既訓練拡散ブリッジモデルと完全に互換性があり, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-12-28T03:32:26Z) - Local Flow Matching Generative Models [19.859984725284896]
局所フローマッチング(Local Flow Matching)は、フローベース生成モデルに基づく密度推定のための計算フレームワークである。
$textttLFM$はシミュレーション不要のスキームを採用し、フローマッチングサブモデルのシーケンスを漸進的に学習する。
FMと比較して, $textttLFM$ のトレーニング効率と競争的生成性能の改善を実証した。
論文 参考訳(メタデータ) (2024-10-03T14:53:10Z) - Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。
GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。
生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文 参考訳(メタデータ) (2024-09-27T20:21:19Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Score-based diffusion models for accelerated MRI [35.3148116010546]
本研究では,画像中の逆問題を容易に解けるような条件分布からデータをサンプリングする方法を提案する。
我々のモデルは、訓練のためにのみ等級画像を必要とするが、複雑な値のデータを再構成することができ、さらに並列画像まで拡張できる。
論文 参考訳(メタデータ) (2021-10-08T08:42:03Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。