論文の概要: Resurrect Mask AutoRegressive Modeling for Efficient and Scalable Image Generation
- arxiv url: http://arxiv.org/abs/2507.13032v1
- Date: Thu, 17 Jul 2025 12:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.478838
- Title: Resurrect Mask AutoRegressive Modeling for Efficient and Scalable Image Generation
- Title(参考訳): 効率的かつスケーラブルな画像生成のための再帰マスク自動回帰モデリング
- Authors: Yi Xin, Le Zhuo, Qi Qin, Siqi Luo, Yuewen Cao, Bin Fu, Yangfan He, Hongsheng Li, Guangtao Zhai, Xiaohong Liu, Peng Gao,
- Abstract要約: Masked AutoRegressive (MAR)モデルは画像生成において顕著な進歩を遂げている。
MARモデルは、伝統的に標準的なARモデルに比べて性能が劣っている。
本研究は、MARアーキテクチャを改良し、画像生成品質を改善する。
- 参考スコア(独自算出の注目度): 62.00800210379539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AutoRegressive (AR) models have made notable progress in image generation, with Masked AutoRegressive (MAR) models gaining attention for their efficient parallel decoding. However, MAR models have traditionally underperformed when compared to standard AR models. This study refines the MAR architecture to improve image generation quality. We begin by evaluating various image tokenizers to identify the most effective one. Subsequently, we introduce an improved Bidirectional LLaMA architecture by replacing causal attention with bidirectional attention and incorporating 2D RoPE, which together form our advanced model, MaskGIL. Scaled from 111M to 1.4B parameters, MaskGIL achieves a FID score of 3.71, matching state-of-the-art AR models in the ImageNet 256x256 benchmark, while requiring only 8 inference steps compared to the 256 steps of AR models. Furthermore, we develop a text-driven MaskGIL model with 775M parameters for generating images from text at various resolutions. Beyond image generation, MaskGIL extends to accelerate AR-based generation and enable real-time speech-to-image conversion. Our codes and models are available at https://github.com/synbol/MaskGIL.
- Abstract(参考訳): AutoRegressive(AR)モデルは画像生成において顕著な進歩を遂げており、Masked AutoRegressive(MAR)モデルは効率的な並列デコードのために注目を集めている。
しかし、MARモデルは従来のARモデルと比べて性能が劣っている。
本研究は、MARアーキテクチャを改良し、画像生成品質を改善する。
まず、最も有効なものを特定するために、様々な画像トークン化器の評価から始める。
その後、両方向の注意を双方向の注意に置き換え、2D RoPEを組み込むことにより、改良された双方向LLaMAアーキテクチャを導入する。
MaskGILは111Mから1.4Bのパラメータにスケールされ、ImageNet 256x256ベンチマークで最先端のARモデルと一致する3.71のFIDスコアを達成している。
さらに,テキストから様々な解像度で画像を生成するための775Mパラメータを持つテキスト駆動型MaskGILモデルを開発した。
画像生成以外にも、MaskGILはARベースの生成を加速し、リアルタイムの音声画像変換を可能にする。
私たちのコードとモデルはhttps://github.com/synbol/MaskGIL.comで公開されています。
関連論文リスト
- HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。
高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。
HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文 参考訳(メタデータ) (2025-06-04T20:08:07Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - Emage: Non-Autoregressive Text-to-Image Generation [63.347052548210236]
非自己回帰的テキスト画像モデルは、効率的に数百の画像トークンを並列に生成する。
346Mパラメータのモデルでは、256$times$256の画像を1つのV100 GPU上で約1秒生成する。
論文 参考訳(メタデータ) (2023-12-22T10:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。