論文の概要: Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots
- arxiv url: http://arxiv.org/abs/2505.20288v1
- Date: Mon, 26 May 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.451404
- Title: Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots
- Title(参考訳): 低分解能Token Pivotを用いた階層型マスケ自動回帰モデル
- Authors: Guangting Zheng, Yehao Li, Yingwei Pan, Jiajun Deng, Ting Yao, Yanyong Zhang, Tao Mei,
- Abstract要約: 本稿では,いくつかの低解像度画像トークンから一般的な高密度画像トークンへの階層構造をモデル化する,新しい自己回帰設計を提案する。
階層型自己回帰モデル(Hi-MAR)を提案する。
- 参考スコア(独自算出の注目度): 103.48424042986271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models have emerged as a powerful generative paradigm for visual generation. The current de-facto standard of next token prediction commonly operates over a single-scale sequence of dense image tokens, and is incapable of utilizing global context especially for early tokens prediction. In this paper, we introduce a new autoregressive design to model a hierarchy from a few low-resolution image tokens to the typical dense image tokens, and delve into a thorough hierarchical dependency across multi-scale image tokens. Technically, we present a Hierarchical Masked Autoregressive models (Hi-MAR) that pivot on low-resolution image tokens to trigger hierarchical autoregressive modeling in a multi-phase manner. Hi-MAR learns to predict a few image tokens in low resolution, functioning as intermediary pivots to reflect global structure, in the first phase. Such pivots act as the additional guidance to strengthen the next autoregressive modeling phase by shaping global structural awareness of typical dense image tokens. A new Diffusion Transformer head is further devised to amplify the global context among all tokens for mask token prediction. Extensive evaluations on both class-conditional and text-to-image generation tasks demonstrate that Hi-MAR outperforms typical AR baselines, while requiring fewer computational costs. Code is available at https://github.com/HiDream-ai/himar.
- Abstract(参考訳): 自己回帰モデルは視覚生成のための強力な生成パラダイムとして登場した。
現在の次のトークン予測のデファクト標準は、通常、高密度の画像トークンの単一スケールシーケンス上で動作し、特に早期トークン予測のためにグローバルコンテキストを利用することができない。
本稿では,いくつかの低解像度画像トークンから一般的な高密度画像トークンへの階層構造をモデル化し,マルチスケール画像トークンにまたがる完全な階層的依存関係を探索する,新しい自己回帰設計を提案する。
技術的には,階層型マスク付き自己回帰モデル (Hi-MAR) を提案する。
Hi-MARは低解像度でいくつかの画像トークンを予測し、第1フェーズでは、グローバルな構造を反映する中間ピボットとして機能する。
このようなピボットは、典型的な高密度画像トークンのグローバルな構造的認識を形成することによって、次の自己回帰モデリングフェーズを強化するための追加のガイダンスとして機能する。
新しいDiffusion Transformerヘッドは、マスクトークン予測のためのすべてのトークンのグローバルコンテキストを増幅するためにさらに考案されている。
クラス条件とテキスト・ツー・イメージの生成タスクに対する広範囲な評価は、Hi-MARが通常のARベースラインより優れており、計算コストは少ないことを示している。
コードはhttps://github.com/HiDream-ai/himar.comで入手できる。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。
本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文 参考訳(メタデータ) (2025-03-20T14:41:29Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。