論文の概要: E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling
- arxiv url: http://arxiv.org/abs/2412.14170v1
- Date: Wed, 18 Dec 2024 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:51.847731
- Title: E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling
- Title(参考訳): E-CAR:多段階モデリングによる効率的な連続自己回帰画像生成
- Authors: Zhihang Yuan, Yuzhang Shang, Hanling Zhang, Tongcheng Fang, Rui Xie, Bingxin Xu, Yan Yan, Shengen Yan, Guohao Dai, Yu Wang,
- Abstract要約: マルチステージモデリングによる効率的な連続自己回帰画像生成(ECAR)について述べる。
解像度が上がるとトークンを生成し、同時に各ステージで画像をデノナイズする。
ECARはDiT Peebles & Xie [2023]に匹敵する画質を実現し、10$times$ FLOPsと5$times$のスピードアップを必要とし、256$times $256イメージを生成する。
- 参考スコア(独自算出の注目度): 17.62612090885471
- License:
- Abstract: Recent advances in autoregressive (AR) models with continuous tokens for image generation show promising results by eliminating the need for discrete tokenization. However, these models face efficiency challenges due to their sequential token generation nature and reliance on computationally intensive diffusion-based sampling. We present ECAR (Efficient Continuous Auto-Regressive Image Generation via Multistage Modeling), an approach that addresses these limitations through two intertwined innovations: (1) a stage-wise continuous token generation strategy that reduces computational complexity and provides progressively refined token maps as hierarchical conditions, and (2) a multistage flow-based distribution modeling method that transforms only partial-denoised distributions at each stage comparing to complete denoising in normal diffusion models. Holistically, ECAR operates by generating tokens at increasing resolutions while simultaneously denoising the image at each stage. This design not only reduces token-to-image transformation cost by a factor of the stage number but also enables parallel processing at the token level. Our approach not only enhances computational efficiency but also aligns naturally with image generation principles by operating in continuous token space and following a hierarchical generation process from coarse to fine details. Experimental results demonstrate that ECAR achieves comparable image quality to DiT Peebles & Xie [2023] while requiring 10$\times$ FLOPs reduction and 5$\times$ speedup to generate a 256$\times$256 image.
- Abstract(参考訳): 画像生成のための連続トークンを用いた自己回帰(AR)モデルの最近の進歩は、離散トークン化の必要性を排除し、有望な結果を示している。
しかし、これらのモデルは、逐次トークン生成の性質と、計算集約的な拡散に基づくサンプリングに依存するため、効率上の課題に直面している。
本研究は,ECAR(Efficient Continuous Auto-Regressive Image Generation via Multistage Modeling)という,計算複雑性を低減し,高度に改良されたトークンマップを階層的条件として提供する段階的連続トークン生成戦略と,通常の拡散モデルにおける完全復調と比較して,各段階における部分復調分布のみを変換する多段階フローベース分散モデリング手法を提案する。
理論的には、ECARは解像度を上げてトークンを生成すると同時に、各ステージで画像をデノナイズすることで動作する。
この設計は、ステージ番号の係数によってトークンからイメージへの変換コストを削減するだけでなく、トークンレベルでの並列処理を可能にする。
提案手法は, 計算効率の向上だけでなく, 連続トークン空間を演算し, 階層的な生成過程を粗いものから細部まで追従することによって, 画像生成の原理と自然に整合する。
実験により、ECARは、256$\times$256画像を生成するために10$\times$FLOPsと5$\times$スピードアップを必要としながら、DiT Peebles & Xie [2023]に匹敵する画質を実現していることが示された。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Image Inpainting via Tractable Steering of Diffusion Models [48.16994134964729]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Improved Masked Image Generation with Token-Critic [16.749458173904934]
本稿では,非自己回帰型生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。
最先端の生成変換器は、その性能を著しく向上させ、生成した画像品質と多様性のトレードオフの観点から、最近の拡散モデルやGANよりも優れている。
論文 参考訳(メタデータ) (2022-09-09T17:57:21Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。