論文の概要: NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers
- arxiv url: http://arxiv.org/abs/2503.09242v2
- Date: Tue, 05 Aug 2025 08:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:33.851788
- Title: NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers
- Title(参考訳): NAMI:ブリッジ型進行流変圧器による効率的な画像生成
- Authors: Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Xiaoyu Wu, Dawei Leng, Yuhui Yin,
- Abstract要約: フローベースのトランスフォーマーモデルは、最先端の画像生成性能を達成しているが、しばしば高い推論遅延と計算コストに悩まされている。
本稿では, 時間的, 空間的, 建築的次元にわたって生成過程を分解するBridged Progressive Rectified Flow Transformers (NAMI)を提案する。
- 参考スコア(独自算出の注目度): 10.84639914909133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow-based Transformer models have achieved state-of-the-art image generation performance, but often suffer from high inference latency and computational cost due to their large parameter sizes. To improve inference efficiency without compromising quality, we propose Bridged Progressive Rectified Flow Transformers (NAMI), which decompose the generation process across temporal, spatial, and architectural demensions. We divide the rectified flow into different stages according to resolution, and use a BridgeFlow module to connect them. Fewer Transformer layers are used at low-resolution stages to generate image layouts and concept contours, and more layers are progressively added as the resolution increases. Experiments demonstrate that our approach achieves fast convergence and reduces inference time while ensuring generation quality. The main contributions of this paper are summarized as follows: (1) We introduce Bridged Progressive Rectified Flow Transformers that enable multi-resolution training, accelerating model convergence; (2) NAMI leverages piecewise flow and spatial cascading of Diffusion Transformer (DiT) to rapidly generate images, reducing inference time by 64% for generating 1024 resolution images; (3) We propose a BridgeFlow module to align flows between different stages; (4) We propose the NAMI-1K benchmark to evaluate human preference performance, aiming to mitigate distributional bias and comprehensively assess model effectiveness. The results show that our model is competitive with state-of-the-art models.
- Abstract(参考訳): フローベーストランスフォーマーモデルは、最先端の画像生成性能を達成したが、大きなパラメータサイズのため、しばしば推論遅延と計算コストに悩まされる。
品質を損なうことなく推論効率を向上させるために,時間的,空間的,建築的次元にわたって生成過程を分解するBridged Progressive Rectified Flow Transformer (NAMI)を提案する。
修正されたフローを解像度に応じて異なるステージに分割し、ブリッジフローモジュールを使ってそれらを接続します。
低解像度の段階では、画像レイアウトやコンセプトの輪郭を生成するためにトランスフォーマー層が少ないため、解像度が増大するにつれて、徐々に多くの層が追加される。
実験により,本手法は高速収束を実現し,生成品質を確保しつつ,推論時間を短縮することを示した。
本論文の主な貢献は,(1)多分解能トレーニング,加速モデル収束を可能にするBridged Progressive Rectified Flow Transformerを導入し,(2)NAMIはDiffusion Transformer(DiT)の断片的フローと空間カスケードを利用して画像の高速生成を行い,1024の解像度画像を生成するための推論時間を64%削減し,(3)異なるステージ間のフローを整列するBridgeFlowモジュールを提案し,(4)NAMI-1Kベンチマークを提案し,分布バイアスを緩和し,モデルの有効性を包括的に評価する。
その結果、我々のモデルは最先端のモデルと競合していることがわかった。
関連論文リスト
- Straighten Viscous Rectified Flow via Noise Optimization [24.065483360595458]
Reflow操作は、ノイズと画像間の決定論的結合を構築することにより、トレーニング中の補正流れの推論軌跡を的確にすることを目的としている。
本稿では,Reflowにおける限界,特に構築された決定論的結合と実画像の分布ギャップに起因する高品質な画像を高速に生成できないことを明らかにする。
本稿では,エンコーダとニューラル速度場を組み合わせた共同トレーニングフレームワークであるStraighten Viscous Rectified Flow via Noise Optimization (VRFNO)を提案する。
論文 参考訳(メタデータ) (2025-07-14T12:35:17Z) - STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis [44.2114053357308]
本稿では,高分解能画像合成において高い性能を実現する正規化フローに基づくスケーラブルな生成モデルを提案する。
STARFlowの中核はTransformer Autoregressive Flow (TARFlow)であり、これは流れの正規化の表現力とAutoregressive Transformerの構造的モデリング能力を組み合わせたものである。
論文 参考訳(メタデータ) (2025-06-06T17:58:39Z) - FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution [33.07779971446476]
任意の解像度で高画質画像を効率よく生成できる、純粋に畳み込みに基づく生成モデルであるFlowDCNを提案する。
FlowDCNは256Times256$ ImageNet Benchmarkと同等の解像度外挿結果で最先端の4.30 sFIDを実現している。
FlowDCNはスケーラブルで柔軟な画像合成のための有望なソリューションであると考えています。
論文 参考訳(メタデータ) (2024-10-30T02:48:50Z) - A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。
私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文 参考訳(メタデータ) (2024-06-01T17:29:29Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。