論文の概要: One-step Latent-free Image Generation with Pixel Mean Flows
- arxiv url: http://arxiv.org/abs/2601.22158v1
- Date: Thu, 29 Jan 2026 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.113296
- Title: One-step Latent-free Image Generation with Pixel Mean Flows
- Title(参考訳): 画素平均流を用いた一段階遅延画像生成
- Authors: Yiyang Lu, Susie Lu, Qiao Sun, Hanhong Zhao, Zhicheng Jiang, Xianbang Wang, Tianhong Li, Zhengyang Geng, Kaiming He,
- Abstract要約: ネットワーク出力空間と損失空間を別々に定式化する「ピクセル平均フロー」(pMF)を提案する。
pMFは、256x256解像度 (2.22 FID) と512x512解像度 (2.48 FID) でImageNet上の1ステップの潜時生成の強力な結果を得る
- 参考スコア(独自算出の注目度): 22.294629970410508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.
- Abstract(参考訳): 画像生成のための現代拡散/フローベースモデルは通常2つのコア特性を示す。
(i)多段階サンプリングを用い、
(ii)潜伏空間で活動する。
近年の進歩は各側面を個別に前進させ、潜伏者なしで一段階拡散・流路へ進もうとしている。
本研究では,この目標に向けてさらなる一歩を踏み出し,ピクセル平均フロー (pMF) を提案する。
我々の中心となるガイドラインは、ネットワーク出力空間と損失空間を別々に定式化することである。
ネットワークターゲットは推定される低次元画像多様体(すなわち x-述語)上に設計され、損失は速度空間のMeanFlowによって定義される。
画像多様体と平均速度場の間の簡単な変換を導入する。
実験では、pMFは256x256の解像度 (2.22 FID) と512x512の解像度 (2.48 FID) でImageNet上の1ステップの潜時生成の強い結果を得た。
我々は,拡散流モデルと拡散流モデルの境界をさらに推し進めることを期待している。
関連論文リスト
- Generative Modeling via Drifting [63.351930190408545]
本稿では,訓練中の前進方向の分布を進化させ,一段階の推論を自然に認めるDrifting Modelsという新しいパラダイムを提案する。
実験では,1ステップのジェネレータが256 x 256の解像度でImageNetの最先端結果を達成し,FIDは潜時空間で1.54,ピクセル空間で1.61である。
論文 参考訳(メタデータ) (2026-02-04T17:06:49Z) - DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - Balanced conic rectified flow [19.226787997122987]
整流流は、通常の微分方程式(ODE)を通して2つの分布間の滑らかな輸送マッピングを学習する生成モデルである
本研究では,元の修正流れの限界を実験的に明らかにし,実像をトレーニングプロセスに組み込む新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-29T07:06:01Z) - Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training [23.632047555553324]
画素空間拡散および一貫性モデルのための新しい2段階トレーニングフレームワークを提案する。
トレーニングフレームワークは、ImageNetデータセット上で強力な経験的パフォーマンスを示す。
我々の知る限りでは、高解像度画像上での一貫性モデルのトレーニングを成功させたのはこれが初めてである。
論文 参考訳(メタデータ) (2025-10-14T14:41:16Z) - Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - ProReflow: Progressive Reflow with Decomposed Velocity [52.249464542399636]
フローマッチングは、拡散モデルの拡散過程を数ステップまたは1ステップ生成のために直線に再フローすることを目的としている。
局所的な時間ステップで拡散モデルを段階的に再フローし,拡散全体を進行させるプログレッシブ・リフローを導入する。
また,フローマッチングにおける方向整合の重要性を強調し,位置整合性を考慮したV-Predictionを導入する。
論文 参考訳(メタデータ) (2025-03-05T04:50:53Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。
我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。
提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - Multilevel Diffusion: Infinite Dimensional Score-Based Diffusion Models for Image Generation [2.5556910002263984]
スコアベース拡散モデル (SBDM) は画像生成のための最先端のアプローチとして登場した。
本稿では, 無限次元のSBDM, すなわち, 矩形領域でサポートされている関数としてトレーニングデータをモデル化する。
無限次元設定において、現在のSBDMアプローチの2つの欠点を克服する方法を実証する。
論文 参考訳(メタデータ) (2023-03-08T18:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。