論文の概要: Fair Benchmarking of Emerging One-Step Generative Models Against Multistep Diffusion and Flow Models
- arxiv url: http://arxiv.org/abs/2603.14186v1
- Date: Sun, 15 Mar 2026 02:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.656753
- Title: Fair Benchmarking of Emerging One-Step Generative Models Against Multistep Diffusion and Flow Models
- Title(参考訳): 多段階拡散モデルと流れモデルに対する1段階生成モデルの公平なベンチマーク
- Authors: Advaith Ravishankar, Serena Liu, Mingyang Wang, Todd Zhou, Jeffrey Zhou, Arnav Sharma, Ziling Hu, Léopold Das, Abdulaziz Sobirov, Faizaan Siddique, Freddy Yu, Seungjoo Baek, Yan Luo, Mengyu Wang,
- Abstract要約: 最先端のテキスト画像モデルは高品質な画像を生成するが、推論は高価である。
1ステップモデルは、1ステップで画像にノイズをマッピングすることで、このコストを削減することを目的としている。
FIDに焦点を当てたモデル開発とCFGの選択は、いくつかの段階において誤解を招く可能性があることを示す。
- 参考スコア(独自算出の注目度): 4.809245505572861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art text-to-image models produce high-quality images, but inference remains expensive as generation requires several sequential ODE or denoising steps. Native one-step models aim to reduce this cost by mapping noise to an image in a single step, yet fair comparisons to multi-step systems are difficult because studies use mismatched sampling steps and different classifier-free guidance (CFG) settings, where CFG can shift FID, Inception Score, and CLIP-based alignment in opposing directions. It is also unclear how well one-step models scale to multi-step inference, and there is limited standardized out-of-distribution evaluation for label-ID-conditioned generators beyond ImageNet. To address this, We benchmark eight models spanning one-step flows (MeanFlow, Improved MeanFlow, SoFlow), multi-step baselines (RAE, Scale-RAE), and established systems (SiT, Stable Diffusion 3.5, FLUX.1) under a controlled class-conditional protocol on ImageNet validation, ImageNetV2, and reLAIONet, our new proofread out-of-distribution dataset aligned to ImageNet label IDs. Using FID, Inception Score, CLIP Score, and Pick Score, we show that FID-focused model development and CFG selection can be misleading in few-step regimes, where guidance changes can improve FID while degrading text-image alignment and human preference signals and worsening perceived quality. We further show that leading one-step models benefit from step scaling and become substantially more competitive under multi-step inference, although they still exhibit characteristic local distortions. To capture these tradeoffs, we introduce MinMax Harmonic Mean (MMHM), a composite proxy over all four metrics that stabilizes hyperparameter selection across guidance and step sweeps.
- Abstract(参考訳): 最先端のテキスト・トゥ・イメージモデルは高品質な画像を生成するが、生成には数ステップのシーケンシャルなODEを必要とするため、推論は高価である。
ネイティブワンステップモデルは、単一ステップで画像にノイズをマッピングすることで、このコストを削減することを目的としているが、マルチステップシステムとの公正な比較は困難である。
また,一段階モデルがマルチステップ推論にどの程度の規模でスケールするかは明らかではなく,ラベル付きID条件付きジェネレータの標準出力評価がImageNet以外にも限られている。
そこで我々は,ImageNet Validation, ImageNetV2, reLAIONetの制御されたクラス条件プロトコルの下で, ワンステップフロー(MeanFlow, Improved MeanFlow, SoFlow), multi-step baselines(RAE, Scale-RAE), and established system(SiT, Staable Diffusion 3.5, FLUX.1)の8つのモデルをベンチマークした。
FID,Inception Score,CLIP Score,Pick Scoreを用いて、FIDに焦点を当てたモデル開発とCFG選択が、テキスト・画像のアライメントと人間の嗜好シグナルを劣化させ、認識品質を悪化させながら、FIDを改善できるいくつかの段階において誤解を招く可能性があることを示す。
さらに、ステップスケーリングの恩恵を受け、マルチステップ推論の下ではより競争力のある1ステップモデルであることが示されるが、特性的な局所歪みは残る。
これらのトレードオフを捉えるために、ガイダンスとステップスイープをまたいだハイパーパラメータ選択を安定化する4つのメトリクスすべてに対する複合プロキシであるMinMax Harmonic Mean(MMHM)を紹介します。
関連論文リスト
- Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction [0.26856688022781555]
学習可能なパラメータによって多段階のサンプルを一般化するDual-rを導入する。
2階局所精度を維持しながら、標準的な予測器・相関器構造を維持している。
FIDおよびCLIPスコアは、背骨全体にわたる低NFEレギュレーションで改善される。
論文 参考訳(メタデータ) (2026-03-04T12:14:52Z) - Know Your Step: Faster and Better Alignment for Flow Matching Models via Step-aware Advantages [6.470160796651034]
本研究では,画像モデルに対するフローマッチングテキストを,人間の好みによく適合した効率的な数ステップ生成器にトレーニングするための新しいフレームワークを提案する。
TAFS GRPOは画像生成のステップ数で高い性能を示し、生成した画像と人間の好みとのアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2026-02-02T03:32:00Z) - LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。
単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。
ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-01T09:51:54Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。