論文の概要: FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner
- arxiv url: http://arxiv.org/abs/2409.18128v1
- Date: Thu, 26 Sep 2024 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:27:33.242797
- Title: FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner
- Title(参考訳): FlowTurbo:Velocity Refinerを用いたリアルタイムフローベース画像生成を目指して
- Authors: Wenliang Zhao, Minglei Shi, Xumin Yu, Jie Zhou, Jiwen Lu,
- Abstract要約: フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
- 参考スコア(独自算出の注目度): 70.90505084288057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on the success of diffusion models in visual generation, flow-based models reemerge as another prominent family of generative models that have achieved competitive or better performance in terms of both visual quality and inference speed. By learning the velocity field through flow-matching, flow-based models tend to produce a straighter sampling trajectory, which is advantageous during the sampling process. However, unlike diffusion models for which fast samplers are well-developed, efficient sampling of flow-based generative models has been rarely explored. In this paper, we propose a framework called FlowTurbo to accelerate the sampling of flow-based models while still enhancing the sampling quality. Our primary observation is that the velocity predictor's outputs in the flow-based models will become stable during the sampling, enabling the estimation of velocity via a lightweight velocity refiner. Additionally, we introduce several techniques including a pseudo corrector and sample-aware compilation to further reduce inference time. Since FlowTurbo does not change the multi-step sampling paradigm, it can be effectively applied for various tasks such as image editing, inpainting, etc. By integrating FlowTurbo into different flow-based models, we obtain an acceleration ratio of 53.1%$\sim$58.3% on class-conditional generation and 29.8%$\sim$38.5% on text-to-image generation. Notably, FlowTurbo reaches an FID of 2.12 on ImageNet with 100 (ms / img) and FID of 3.93 with 38 (ms / img), achieving the real-time image generation and establishing the new state-of-the-art. Code is available at https://github.com/shiml20/FlowTurbo.
- Abstract(参考訳): 視覚生成における拡散モデルの成功に基づいて、フローベースモデルは、視覚的品質と推論速度の両方において、競争力またはより良いパフォーマンスを達成した別の顕著な生成モデルのファミリーとして再燃する。
フローマッチングを通して速度場を学習することにより、フローベースモデルはよりストレートなサンプリング軌道を生成する傾向にあり、サンプリング過程において有利である。
しかし, 高速サンプリング装置が十分に開発されている拡散モデルとは異なり, フローベース生成モデルの効率的なサンプリングはめったに行われていない。
本稿では,フローベースモデルのサンプリングを高速化しつつ,サンプリング品質を向上するFlowTurboというフレームワークを提案する。
第一の観察は,フローベースモデルにおける速度予測器の出力がサンプリング中に安定になり,軽量な速度補正器による速度推定が可能となることである。
さらに、擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し、推論時間をさらに短縮する。
FlowTurboはマルチステップサンプリングパラダイムを変更しないため、画像編集やインペイントなど、さまざまなタスクに効果的に適用することができる。
FlowTurboを異なるフローベースモデルに統合することにより、クラス条件生成では53.1%$\sim$58.3%、テキスト画像生成では29.8%$\sim$38.5%の加速比が得られる。
FlowTurboは100 (ms / img)のImageNetで2.12、38 (ms / img)のFIDで38 (ms / img)のFIDに達し、リアルタイム画像生成を実現し、新しい最先端技術を確立する。
コードはhttps://github.com/shiml20/FlowTurbo.comで入手できる。
関連論文リスト
- TD-Paint: Faster Diffusion Inpainting Through Time Aware Pixel Conditioning [8.291380592932333]
Time-Aware Diffusion Paint (TD-Paint) は、画素レベルでの可変ノイズレベルをモデル化することによって拡散プロセスに適応する新しいアプローチである。
専用のアーキテクチャや高価な生成ループを必要とする従来の拡散ベースの塗装モデルとは異なり、TD-Paintはアーキテクチャの変更なしにより高速なサンプリング時間を実現する。
論文 参考訳(メタデータ) (2024-10-11T23:46:56Z) - Efficient 3D Molecular Generation with Flow Matching and Scale Optimal Transport [43.56824843205882]
SemlaはスケーラブルなE(3)等価メッセージパッシングアーキテクチャである。
SemlaFlowはフローマッチングとスケールの最適トランスポートを使ってトレーニングされている。
本モデルでは,100個のサンプリングステップのみを用いて,ベンチマークデータセットの最先端結果を生成する。
論文 参考訳(メタデータ) (2024-06-11T13:51:51Z) - PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator [73.80050807279461]
Piecewise Rectified Flow (PeRFlow) は拡散モデルの高速化のためのフローベース手法である。
PeRFlowは数ステップの世代で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-13T07:10:53Z) - Accelerating Parallel Sampling of Diffusion Models [25.347710690711562]
自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。
これらの手法を適用したParaTAAは、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。
実験により、ParaTAAは一般的なシーケンシャルサンプリングアルゴリズムで要求される推論ステップを4$sim$14倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-15T14:27:58Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。