論文の概要: One-step Latent-free Image Generation with Pixel Mean Flows
- arxiv url: http://arxiv.org/abs/2601.22158v2
- Date: Thu, 05 Feb 2026 15:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.808768
- Title: One-step Latent-free Image Generation with Pixel Mean Flows
- Title(参考訳): 画素平均流を用いた一段階遅延画像生成
- Authors: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He,
- Abstract要約: ネットワーク出力空間と損失空間を別々に定式化する「ピクセル平均フロー」(pMF)を提案する。
pMFは、256x256解像度 (2.22 FID) と512x512解像度 (2.48 FID) でImageNet上の1ステップの潜時生成の強力な結果を得る
- 参考スコア(独自算出の注目度): 22.294629970410508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.
- Abstract(参考訳): 画像生成のための現代拡散/フローベースモデルは通常2つのコア特性を示す。
(i)多段階サンプリングを用い、
(ii)潜伏空間で活動する。
近年の進歩は各側面を個別に前進させ、潜伏者なしで一段階拡散・流路へ進もうとしている。
本研究では,この目標に向けてさらなる一歩を踏み出し,ピクセル平均フロー (pMF) を提案する。
我々の中心となるガイドラインは、ネットワーク出力空間と損失空間を別々に定式化することである。
ネットワークターゲットは推定される低次元画像多様体(すなわち x-述語)上に設計され、損失は速度空間のMeanFlowによって定義される。
画像多様体と平均速度場の間の簡単な変換を導入する。
実験では、pMFは256x256の解像度 (2.22 FID) と512x512の解像度 (2.48 FID) でImageNet上の1ステップの潜時生成の強い結果を得た。
我々は,拡散流モデルと拡散流モデルの境界をさらに推し進めることを期待している。
関連論文リスト
- DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。
我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。
提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - Multilevel Diffusion: Infinite Dimensional Score-Based Diffusion Models for Image Generation [2.5556910002263984]
スコアベース拡散モデル (SBDM) は画像生成のための最先端のアプローチとして登場した。
本稿では, 無限次元のSBDM, すなわち, 矩形領域でサポートされている関数としてトレーニングデータをモデル化する。
無限次元設定において、現在のSBDMアプローチの2つの欠点を克服する方法を実証する。
論文 参考訳(メタデータ) (2023-03-08T18:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。