論文の概要: Flow Generator Matching
- arxiv url: http://arxiv.org/abs/2410.19310v1
- Date: Fri, 25 Oct 2024 05:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:38:09.440352
- Title: Flow Generator Matching
- Title(参考訳): フロージェネレータマッチング
- Authors: Zemin Huang, Zhengyang Geng, Weijian Luo, Guo-jun Qi,
- Abstract要約: フロージェネレータマッチング(FGM)は、フローマッチングモデルのサンプリングをワンステップ生成に高速化するように設計されている。
CIFAR10の非条件生成ベンチマークでは、1段階のFGMモデルが新たなFr'echet Inception Distance(FID)スコア3.08を達成した。
MM-DiT-FGMワンステップテキスト・ツー・イメージモデルでは,業界レベルでの優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 35.371071097381346
- License:
- Abstract: In the realm of Artificial Intelligence Generated Content (AIGC), flow-matching models have emerged as a powerhouse, achieving success due to their robust theoretical underpinnings and solid ability for large-scale generative modeling. These models have demonstrated state-of-the-art performance, but their brilliance comes at a cost. The process of sampling from these models is notoriously demanding on computational resources, as it necessitates the use of multi-step numerical ordinary differential equations (ODEs). Against this backdrop, this paper presents a novel solution with theoretical guarantees in the form of Flow Generator Matching (FGM), an innovative approach designed to accelerate the sampling of flow-matching models into a one-step generation, while maintaining the original performance. On the CIFAR10 unconditional generation benchmark, our one-step FGM model achieves a new record Fr\'echet Inception Distance (FID) score of 3.08 among few-step flow-matching-based models, outperforming original 50-step flow-matching models. Furthermore, we use the FGM to distill the Stable Diffusion 3, a leading text-to-image flow-matching model based on the MM-DiT architecture. The resulting MM-DiT-FGM one-step text-to-image model demonstrates outstanding industry-level performance. When evaluated on the GenEval benchmark, MM-DiT-FGM has delivered remarkable generating qualities, rivaling other multi-step models in light of the efficiency of a single generation step.
- Abstract(参考訳): AIGC(Artificial Intelligence Generated Content)の領域では、フローマッチングモデルがパワーハウスとして登場し、その堅牢な理論的基盤と大規模生成モデルのための堅牢な能力によって成功している。
これらのモデルは最先端のパフォーマンスを示しているが、その輝きはコストがかかる。
これらのモデルからサンプリングするプロセスは、多段階の数値常微分方程式(ODE)の使用を必要とするため、計算資源を要求されることで有名である。
本研究では,フロー・ジェネレータ・マッチング(FGM)の手法として,フロー・ジェネレータ・マッチング(FGM)の形式を理論的に保証し,フロー・マッチング・モデルの1ステップ・ジェネレータへのサンプリングを高速化する手法を提案する。
CIFAR10の非条件生成ベンチマークでは,FGMモデルがFr'echet Inception Distance(FID)スコアを,数ステップのフローマッチングベースモデルのうち3.08で達成し,従来の50ステップフローマッチングモデルを上回った。
さらに、FGMを用いて、MM-DiTアーキテクチャに基づく主要なテキスト間フローマッチングモデルであるStable Diffusion 3を蒸留する。
その結果,MM-DiT-FGMのワンステップテキスト・ツー・イメージモデルが,業界レベルでの優れたパフォーマンスを示す。
GenEvalベンチマークで評価すると、MM-DiT-FGMは、単一の生成ステップの効率性を考慮して、他のマルチステップモデルに匹敵する、優れた生成品質を実現している。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Poisson flow consistency models for low-dose CT image denoising [3.6218104434936658]
本稿では,Poisson Flow Generative Model (PFGM)++で得られる柔軟性と,高品質で単一ステップの一貫性モデルのサンプリングを併用した新しい画像復調手法を提案する。
この結果から,PFGM++における拡張変数の次元性であるハイパーパラメータDのチューニングの柔軟性が,一貫性モデルよりも優れることが示唆された。
論文 参考訳(メタデータ) (2024-02-13T01:39:56Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Score-Based Generative Models for Molecule Generation [0.8808021343665321]
我々は、ZINCデータセットから150万のサンプルを表現したTransformerベースのスコア関数をトレーニングする。
私たちは、Mosesベンチマークフレームワークを使用して、一連のメトリクスで生成されたサンプルを評価します。
論文 参考訳(メタデータ) (2022-03-07T13:46:02Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。