論文の概要: DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer
- arxiv url: http://arxiv.org/abs/2507.04947v1
- Date: Mon, 07 Jul 2025 12:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.420573
- Title: DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer
- Title(参考訳): DC-AR:Deep Compression Hybrid Tokenizerを用いた効率的なマスク付き自己回帰画像生成
- Authors: Yecheng Wu, Junyu Chen, Zhuoyang Zhang, Enze Xie, Jincheng Yu, Junsong Chen, Jinyi Hu, Yao Lu, Song Han, Han Cai,
- Abstract要約: DC-ARは、マスク付き自己回帰(AR)テキスト・ツー・イメージ生成フレームワークである。
優れた画像生成品質と計算効率を両立させる。
- 参考スコア(独自算出の注目度): 32.64616770377737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DC-AR, a novel masked autoregressive (AR) text-to-image generation framework that delivers superior image generation quality with exceptional computational efficiency. Due to the tokenizers' limitations, prior masked AR models have lagged behind diffusion models in terms of quality or efficiency. We overcome this limitation by introducing DC-HT - a deep compression hybrid tokenizer for AR models that achieves a 32x spatial compression ratio while maintaining high reconstruction fidelity and cross-resolution generalization ability. Building upon DC-HT, we extend MaskGIT and create a new hybrid masked autoregressive image generation framework that first produces the structural elements through discrete tokens and then applies refinements via residual tokens. DC-AR achieves state-of-the-art results with a gFID of 5.49 on MJHQ-30K and an overall score of 0.69 on GenEval, while offering 1.5-7.9x higher throughput and 2.0-3.5x lower latency compared to prior leading diffusion and autoregressive models.
- Abstract(参考訳): マスク付き自己回帰(AR)テキスト・ツー・イメージ生成フレームワークであるDC-ARを導入する。
トークンライザの制限のため、以前のマスク付きARモデルは、品質や効率の面で拡散モデルに遅れを取っている。
我々は,高再現率とクロスレゾリューション一般化能力を維持しつつ,空間圧縮率を32倍に向上するARモデル用のディープ圧縮ハイブリッドトークンであるDC-HTを導入することで,この制限を克服する。
我々は,DC-HT上に構築したMaskGITを拡張して,まず離散トークンを用いて構造要素を生成し,残余トークンを介して精細化を行うハイブリッドマスク付き自己回帰画像生成フレームワークを作成する。
DC-ARは、MJHQ-30KのgFID5.49、GenEvalの0.69、1.5-7.9倍のスループットと2.0-3.5倍のレイテンシを提供する。
関連論文リスト
- LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter [52.93785843453579]
低品質(LQ)画像からのブラインド顔復元は、高忠実度画像再構成と顔認証の保存を必要とする課題である。
LAFRは,LQ画像の潜時分布とHQ画像の潜時分布を一致させる,新しいコードブックベースの潜時空間アダプタである。
FFHQデータセットのわずか0.9%での拡散の軽量な微調整は、最先端の手法に匹敵する結果を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2025-05-29T14:11:16Z) - DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction [47.483590046908844]
本稿では,粗い1次元自己回帰(AR)画像生成法であるDetailFlowを提案する。
DetailFlowは、段階的に劣化したイメージで管理される解像度対応トークンシーケンスを学習することにより、グローバルな構造から生成プロセスを開始することができる。
提案手法は,従来の手法よりもはるかに少ないトークンで高品質な画像合成を実現する。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [62.77721499671665]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。
ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。
ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文 参考訳(メタデータ) (2025-04-11T14:49:52Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - HART: Efficient Visual Generation with Hybrid Autoregressive Transformer [33.97880303341509]
本稿では,1024×1024画像を直接生成可能な自己回帰型(AR)視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。
提案手法はMJHQ-30Kで2.11から0.30に改良され,7.85から5.38までの31%のFID改善を実現した。
HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:42Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - EdgeRunner: Auto-regressive Auto-encoder for Artistic Mesh Generation [36.69567056569989]
本稿では,最大4,000面の高品質な3Dメッシュを5123ドルの空間解像度で生成できる自動回帰オートエンコーダ(ArAE)モデルを提案する。
本稿では, 3次元メッシュを1次元トークンシーケンスに効率よく圧縮し, トレーニング効率を大幅に向上させる新しいメッシュトークン化アルゴリズムを提案する。
我々のモデルは、可変長の三角形メッシュを固定長の潜在空間に圧縮し、より優れた一般化のための潜在拡散モデルの訓練を可能にする。
論文 参考訳(メタデータ) (2024-09-26T17:55:02Z) - Dual-former: Hybrid Self-attention Transformer for Efficient Image
Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。
実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。
単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文 参考訳(メタデータ) (2022-10-03T16:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。