論文の概要: Generation then Reconstruction: Accelerating Masked Autoregressive Models via Two-Stage Sampling
- arxiv url: http://arxiv.org/abs/2510.17171v1
- Date: Mon, 20 Oct 2025 05:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.316039
- Title: Generation then Reconstruction: Accelerating Masked Autoregressive Models via Two-Stage Sampling
- Title(参考訳): 2段階サンプリングによるマスク付き自己回帰モデルの生成と再構築
- Authors: Feihong Yan, Peiru Wang, Yao Zhu, Kaiyu Pang, Qingyan Wei, Huiqi Li, Linfeng Zhang,
- Abstract要約: Masked Autoregressive (MAR)モデルは、並列生成能力のためのオートレグレッシブ(AR)モデルよりも、視覚生成の効率を向上する。
我々は、生成を2段階に分解するトレーニング不要な階層的サンプリング戦略であるGeneration then Reconstruction (GtR)を紹介した。
ImageNetのクラス条件とテキスト・ツー・イメージ生成の実験は、MAR-Hの3.72倍のスピードアップを示しながら、同等の品質を維持している。
- 参考スコア(独自算出の注目度): 14.372824543814602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoregressive (MAR) models promise better efficiency in visual generation than autoregressive (AR) models for the ability of parallel generation, yet their acceleration potential remains constrained by the modeling complexity of spatially correlated visual tokens in a single step. To address this limitation, we introduce Generation then Reconstruction (GtR), a training-free hierarchical sampling strategy that decomposes generation into two stages: structure generation establishing global semantic scaffolding, followed by detail reconstruction efficiently completing remaining tokens. Assuming that it is more difficult to create an image from scratch than to complement images based on a basic image framework, GtR is designed to achieve acceleration by computing the reconstruction stage quickly while maintaining the generation quality by computing the generation stage slowly. Moreover, observing that tokens on the details of an image often carry more semantic information than tokens in the salient regions, we further propose Frequency-Weighted Token Selection (FTS) to offer more computation budget to tokens on image details, which are localized based on the energy of high frequency information. Extensive experiments on ImageNet class-conditional and text-to-image generation demonstrate 3.72x speedup on MAR-H while maintaining comparable quality (e.g., FID: 1.59, IS: 304.4 vs. original 1.59, 299.1), substantially outperforming existing acceleration methods across various model scales and generation tasks. Our codes will be released in https://github.com/feihongyan1/GtR.
- Abstract(参考訳): Masked Autoregressive (MAR)モデルは、並列生成能力のためのオートレグレッシブ(AR)モデルよりも優れた視覚生成効率を約束するが、その加速度ポテンシャルは1ステップで空間的に相関した視覚トークンのモデリング複雑さによって制限される。
この制限に対処するために、我々は、生成をグローバルなセマンティックスキャフォールディングを確立する構造生成と、残りのトークンを効率的に完了させる詳細再構築という、2つの段階に分解するトレーニング不要な階層的サンプリング戦略であるGeneration then Reconstruction (GtR)を導入する。
GtRは、基本的な画像フレームワークに基づいて画像を補完するよりも、スクラッチから画像を作成することが難しいと仮定して、生成段階をゆっくりと計算して生成品質を維持しつつ、再構築段階を高速に計算することで加速を実現するように設計されている。
さらに、画像の細部におけるトークンが有意な領域のトークンよりも意味的な情報を多く持つことを確認するとともに、高頻度情報のエネルギーに基づいてローカライズされた画像の詳細部へのトークンに対するより計算予算を提供するために、FTS ( Frequency-Weighted Token Selection) を提案する。
ImageNetのクラス条件とテキスト・ツー・イメージ生成に関する大規模な実験は、MAR-Hの3.72倍のスピードアップを示しながら、同等の品質(例えば、FID: 1.59, IS: 304.4 vs. オリジナルの1.59, 299.1)を維持している。
私たちのコードはhttps://github.com/feihongyan1/GtR.comでリリースされます。
関連論文リスト
- Accelerating Masked Image Generation by Learning Latent Controlled Dynamics [43.797476038568846]
Masked Image Generation Models (MIGM) は大きな成功を収めたが、その効率性は双方向の注意の複数のステップによって妨げられている。
我々は、以前の特徴とサンプルトークンの両方を組み込んだ軽量モデルを学び、特徴進化の平均速度場を後退させる。
論文 参考訳(メタデータ) (2026-02-27T13:16:58Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。
我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。
複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文 参考訳(メタデータ) (2025-10-29T17:43:31Z) - DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction [47.483590046908844]
本稿では,粗い1次元自己回帰(AR)画像生成法であるDetailFlowを提案する。
DetailFlowは、段階的に劣化したイメージで管理される解像度対応トークンシーケンスを学習することにより、グローバルな構造から生成プロセスを開始することができる。
提案手法は,従来の手法よりもはるかに少ないトークンで高品質な画像合成を実現する。
論文 参考訳(メタデータ) (2025-05-27T17:45:21Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering [47.442844594442455]
NextFrequency Image Generation (NFIG)は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
NFIGは生成過程を自然な画像構造と整合させる。
これは最初に低周波成分を生成し、トークンを著しく少なくして効率的にグローバル構造を捉え、その後、徐々に高周波の細部を付加することで実現している。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,SJD (Speculative Jacobi Decoding) の学習自由確率並列復号法を提案する。
SJDは、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を加速する。
具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付けます。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。