論文の概要: HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation
- arxiv url: http://arxiv.org/abs/2506.04421v1
- Date: Wed, 04 Jun 2025 20:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.409427
- Title: HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation
- Title(参考訳): HMAR:効率的な階層型マスク付き自動回帰画像生成
- Authors: Hermann Kumbong, Xian Liu, Tsung-Yi Lin, Ming-Yu Liu, Xihui Liu, Ziwei Liu, Daniel Y. Fu, Christopher Ré, David W. Romero,
- Abstract要約: Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。
高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。
HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
- 参考スコア(独自算出の注目度): 91.08481618973111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Auto-Regressive modeling (VAR) has shown promise in bridging the speed and quality gap between autoregressive image models and diffusion models. VAR reformulates autoregressive modeling by decomposing an image into successive resolution scales. During inference, an image is generated by predicting all the tokens in the next (higher-resolution) scale, conditioned on all tokens in all previous (lower-resolution) scales. However, this formulation suffers from reduced image quality due to the parallel generation of all tokens in a resolution scale; has sequence lengths scaling superlinearly in image resolution; and requires retraining to change the sampling schedule. We introduce Hierarchical Masked Auto-Regressive modeling (HMAR), a new image generation algorithm that alleviates these issues using next-scale prediction and masked prediction to generate high-quality images with fast sampling. HMAR reformulates next-scale prediction as a Markovian process, wherein the prediction of each resolution scale is conditioned only on tokens in its immediate predecessor instead of the tokens in all predecessor resolutions. When predicting a resolution scale, HMAR uses a controllable multi-step masked generation procedure to generate a subset of the tokens in each step. On ImageNet 256x256 and 512x512 benchmarks, HMAR models match or outperform parameter-matched VAR, diffusion, and autoregressive baselines. We develop efficient IO-aware block-sparse attention kernels that allow HMAR to achieve faster training and inference times over VAR by over 2.5x and 1.75x respectively, as well as over 3x lower inference memory footprint. Finally, HMAR yields additional flexibility over VAR; its sampling schedule can be changed without further training, and it can be applied to image editing tasks in a zero-shot manner.
- Abstract(参考訳): Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。
VARは、画像を連続した解像度スケールに分解することで自己回帰モデリングを再構築する。
推論中、画像は次の(高解像度の)スケールで全てのトークンを予測し、すべての前の(低解像度の)スケールで全てのトークンに条件付けすることで生成される。
しかし、この定式化は、すべてのトークンを解像度スケールで並列に生成することによる画質の低下に悩まされ、画像解像度で超直線的にスケーリングするシーケンス長を持ち、サンプリングスケジュールを変更するために再トレーニングを必要とする。
高速サンプリングで高品質な画像を生成するために,次世代の予測とマスク付き予測を用いてこれらの問題を緩和する新しい画像生成アルゴリズムである階層型マスク付き自己回帰モデリング(HMAR)を導入する。
HMARは次のスケールの予測をマルコフ過程として再定式化し、各解像度スケールの予測はすべての前の解像度のトークンではなく、直前のトークンにのみ条件付けされる。
解像度スケールを予測する際、HMARは制御可能なマルチステップマスク付き生成手順を使用して各ステップでトークンのサブセットを生成する。
ImageNet 256x256と512x512のベンチマークでは、HMARモデルはパラメータマッチングされたVAR、拡散、自動回帰ベースラインにマッチする。
我々は,高速なIO対応ブロックスパースアテンションカーネルを開発した。これにより,HMARはVAR上で2.5倍,1.75倍以上の高速なトレーニングと推論が可能となり,メモリフットプリントも3倍以上に向上する。
最後に、HMARはVARよりも柔軟性が増し、サンプリングスケジュールはさらなるトレーニングなしで変更でき、ゼロショットで画像編集タスクに適用できる。
関連論文リスト
- Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots [103.48424042986271]
本稿では,いくつかの低解像度画像トークンから一般的な高密度画像トークンへの階層構造をモデル化する,新しい自己回帰設計を提案する。
階層型自己回帰モデル(Hi-MAR)を提案する。
論文 参考訳(メタデータ) (2025-05-26T17:59:07Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [62.77721499671665]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。