Fugu-MT 論文翻訳(概要): NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers

論文の概要: NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers

arxiv url: http://arxiv.org/abs/2503.09242v1
Date: Wed, 12 Mar 2025 10:38:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.702855
Title: NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers
Title（参考訳）: NAMI: プログレッシブ・リクティファイド・フロー・トランスによる効率的な画像生成
Authors: Yuhang Ma, Bo Cheng, Shanyuan Liu, Ao Ma, Xiaoyu Wu, Liebucha Wu, Dawei Leng, Yuhui Yin,
Abstract要約: 画像生成のためのフローベーストランスフォーマーモデルは、より大きなモデルパラメータを持つ最先端のパフォーマンスを達成したが、その推論配置コストは高いままである。生成品質を維持しながら推論性能を向上させるため, プログレッシブ整流トランスを提案する。実験により,本手法は高速収束を実現し,生成品質を確保しつつ,推論時間を短縮することを示した。
参考スコア（独自算出の注目度）: 11.087309945227826
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Flow-based transformer models for image generation have achieved state-of-the-art performance with larger model parameters, but their inference deployment cost remains high. To enhance inference performance while maintaining generation quality, we propose progressive rectified flow transformers. We divide the rectified flow into different stages according to resolution, using fewer transformer layers at the low-resolution stages to generate image layouts and concept contours, and progressively adding more layers as the resolution increases. Experiments demonstrate that our approach achieves fast convergence and reduces inference time while ensuring generation quality. The main contributions of this paper are summarized as follows: (1) We introduce progressive rectified flow transformers that enable multi-resolution training, accelerating model convergence; (2) NAMI leverages piecewise flow and spatial cascading of Diffusion Transformer (DiT) to rapidly generate images, reducing inference time by 40% to generate a 1024 resolution image; (3) We propose NAMI-1K benchmark to evaluate human preference performance, aiming to mitigate distributional bias and prevent data leakage from open-source benchmarks. The results show that our model is competitive with state-of-the-art models.
Abstract（参考訳）: 画像生成のためのフローベーストランスフォーマーモデルは、より大きなモデルパラメータを持つ最先端のパフォーマンスを達成したが、その推論配置コストは高いままである。生成品質を維持しながら推論性能を向上させるため, プログレッシブ整流トランスを提案する。補正された流れを解像度に応じて異なるステージに分割し、低解像度でトランスフォーマー層を減らして画像レイアウトと概念輪郭を生成し、解像度が増大するにつれて徐々に多くの層を追加する。実験により,本手法は高速収束を実現し,生成品質を確保しつつ,推論時間を短縮することを示した。本論文の主なコントリビューションは,(1)多分解能トレーニング,加速モデル収束を可能にするプログレッシブ整流トランスフォーマーを導入し,(2)NAMIはDiffusion Transformer(DiT)の断片的フローと空間カスケードを利用して画像を高速に生成し,推測時間を40%削減して1024解像度画像を生成する,(3)NAMI-1Kベンチマークを提案し,分散バイアスを緩和し,オープンソースのベンチマークからデータ漏洩を防止する。その結果、我々のモデルは最先端のモデルと競合していることがわかった。

関連論文リスト

Straighten Viscous Rectified Flow via Noise Optimization [24.065483360595458]
Reflow操作は、ノイズと画像間の決定論的結合を構築することにより、トレーニング中の補正流れの推論軌跡を的確にすることを目的としている。本稿では,Reflowにおける限界,特に構築された決定論的結合と実画像の分布ギャップに起因する高品質な画像を高速に生成できないことを明らかにする。本稿では,エンコーダとニューラル速度場を組み合わせた共同トレーニングフレームワークであるStraighten Viscous Rectified Flow via Noise Optimization (VRFNO)を提案する。
論文参考訳（メタデータ） (2025-07-14T12:35:17Z)
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis [44.2114053357308]
本稿では,高分解能画像合成において高い性能を実現する正規化フローに基づくスケーラブルな生成モデルを提案する。 STARFlowの中核はTransformer Autoregressive Flow (TARFlow)であり、これは流れの正規化の表現力とAutoregressive Transformerの構造的モデリング能力を組み合わせたものである。
論文参考訳（メタデータ） (2025-06-06T17:58:39Z)
FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution [33.07779971446476]
任意の解像度で高画質画像を効率よく生成できる、純粋に畳み込みに基づく生成モデルであるFlowDCNを提案する。 FlowDCNは256Times256$ ImageNet Benchmarkと同等の解像度外挿結果で最先端の4.30 sFIDを実現している。 FlowDCNはスケーラブルで柔軟な画像合成のための有望なソリューションであると考えています。
論文参考訳（メタデータ） (2024-10-30T02:48:50Z)
A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文参考訳（メタデータ） (2024-10-23T15:34:06Z)
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。 FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文参考訳（メタデータ） (2024-10-17T15:51:49Z)
Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文参考訳（メタデータ） (2024-09-29T07:14:16Z)
FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。 FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文参考訳（メタデータ） (2024-09-26T17:59:51Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文参考訳（メタデータ） (2024-06-01T17:29:29Z)
Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文参考訳（メタデータ） (2024-02-16T07:48:35Z)
CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-02T17:59:18Z)
ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文参考訳（メタデータ） (2023-07-23T15:10:02Z)
StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文参考訳（メタデータ） (2023-03-01T18:59:33Z)
Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文参考訳（メタデータ） (2020-04-08T09:07:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。