論文の概要: NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers
- arxiv url: http://arxiv.org/abs/2503.09242v1
- Date: Wed, 12 Mar 2025 10:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:15.698425
- Title: NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers
- Title(参考訳): NAMI: プログレッシブ・リクティファイド・フロー・トランスによる効率的な画像生成
- Authors: Yuhang Ma, Bo Cheng, Shanyuan Liu, Ao Ma, Xiaoyu Wu, Liebucha Wu, Dawei Leng, Yuhui Yin,
- Abstract要約: 画像生成のためのフローベーストランスフォーマーモデルは、より大きなモデルパラメータを持つ最先端のパフォーマンスを達成したが、その推論配置コストは高いままである。
生成品質を維持しながら推論性能を向上させるため, プログレッシブ整流トランスを提案する。
実験により,本手法は高速収束を実現し,生成品質を確保しつつ,推論時間を短縮することを示した。
- 参考スコア(独自算出の注目度): 11.087309945227826
- License:
- Abstract: Flow-based transformer models for image generation have achieved state-of-the-art performance with larger model parameters, but their inference deployment cost remains high. To enhance inference performance while maintaining generation quality, we propose progressive rectified flow transformers. We divide the rectified flow into different stages according to resolution, using fewer transformer layers at the low-resolution stages to generate image layouts and concept contours, and progressively adding more layers as the resolution increases. Experiments demonstrate that our approach achieves fast convergence and reduces inference time while ensuring generation quality. The main contributions of this paper are summarized as follows: (1) We introduce progressive rectified flow transformers that enable multi-resolution training, accelerating model convergence; (2) NAMI leverages piecewise flow and spatial cascading of Diffusion Transformer (DiT) to rapidly generate images, reducing inference time by 40% to generate a 1024 resolution image; (3) We propose NAMI-1K benchmark to evaluate human preference performance, aiming to mitigate distributional bias and prevent data leakage from open-source benchmarks. The results show that our model is competitive with state-of-the-art models.
- Abstract(参考訳): 画像生成のためのフローベーストランスフォーマーモデルは、より大きなモデルパラメータを持つ最先端のパフォーマンスを達成したが、その推論配置コストは高いままである。
生成品質を維持しながら推論性能を向上させるため, プログレッシブ整流トランスを提案する。
補正された流れを解像度に応じて異なるステージに分割し、低解像度でトランスフォーマー層を減らして画像レイアウトと概念輪郭を生成し、解像度が増大するにつれて徐々に多くの層を追加する。
実験により,本手法は高速収束を実現し,生成品質を確保しつつ,推論時間を短縮することを示した。
本論文の主なコントリビューションは,(1)多分解能トレーニング,加速モデル収束を可能にするプログレッシブ整流トランスフォーマーを導入し,(2)NAMIはDiffusion Transformer(DiT)の断片的フローと空間カスケードを利用して画像を高速に生成し,推測時間を40%削減して1024解像度画像を生成する,(3)NAMI-1Kベンチマークを提案し,分散バイアスを緩和し,オープンソースのベンチマークからデータ漏洩を防止する。
その結果、我々のモデルは最先端のモデルと競合していることがわかった。
関連論文リスト
- FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution [33.07779971446476]
任意の解像度で高画質画像を効率よく生成できる、純粋に畳み込みに基づく生成モデルであるFlowDCNを提案する。
FlowDCNは256Times256$ ImageNet Benchmarkと同等の解像度外挿結果で最先端の4.30 sFIDを実現している。
FlowDCNはスケーラブルで柔軟な画像合成のための有望なソリューションであると考えています。
論文 参考訳(メタデータ) (2024-10-30T02:48:50Z) - A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。