論文の概要: Autoregressive Visual Generation Needs a Prologue
- arxiv url: http://arxiv.org/abs/2605.06137v1
- Date: Thu, 07 May 2026 12:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.776664
- Title: Autoregressive Visual Generation Needs a Prologue
- Title(参考訳): 自己回帰型ビジュアルジェネレーションはプロローグを必要とする
- Authors: Bowen Zheng, Weijian Luo, Guang Yang, Colin Zhang, Tianyang Hu,
- Abstract要約: Prologueは自己回帰(AR)画像生成における再構成世代ギャップを埋めるアプローチである。
プロローグは、視覚トークンシーケンスに先立つ小さなプロローグトークンセットを生成する。
提案手法は,学習した生成表現を別々に導入することにより,生成品質を向上させることができる。
- 参考スコア(独自算出の注目度): 21.427403915969872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose Prologue, an approach to bridging the reconstruction-generation gap in autoregressive (AR) image generation. Instead of modifying visual tokens to satisfy both reconstruction and generation, Prologue generates a small set of prologue tokens prepended to the visual token sequence. These prologue tokens are trained exclusively with the AR cross-entropy (CE) loss, while visual tokens remain dedicated to reconstruction. This decoupled design lets us optimize generation through the AR model's true distribution without affecting reconstruction quality, which we further formalize from an ELBO perspective. On ImageNet 256x256, Prologue-Base reduces gFID from 21.01 to 10.75 without classifier-free guidance while keeping reconstruction almost unchanged; Prologue-Large reaches a competitive rFID of 0.99 and gFID of 1.46 using a standard AR model without auxiliary semantic supervision. Interestingly, driven only by AR gradients, prologue tokens exhibit emergent semantic structure: linear probing on 16 prologue tokens reaches 35.88% Top-1, far above the 23.71% of the first 16 tokens from a standard tokenizer; resampling with fixed prologue tokens preserves a similar high-level semantic layout. Our results suggest a new direction: generation quality can be improved by introducing a separate learned generative representation while leaving the original representation intact.
- Abstract(参考訳): 本稿では,自己回帰(AR)画像生成における再生・再生ギャップを埋める手法であるPrologueを提案する。
復元と生成の両方を満たすために視覚トークンを変更する代わりに、プロローグは視覚トークンシーケンスに先立つ小さなプロローグトークンセットを生成する。
これらのプロローグトークンはARクロスエントロピー(CE)損失にのみ訓練されるが、視覚トークンは再建専用である。
この分離された設計により、再構成品質に影響を与えることなく、ARモデルの真の分布による生成を最適化することが可能となり、ELBOの観点からさらに形式化される。
ImageNet 256x256 では、Prologue-Base は gFID を 21.01 から 10.75 に減らし、再構成をほとんど変更することなく、分類なしのガイダンスを保ち、Prologue-Large は、標準的な AR モデルを用いて 0.99 と gFID の 1.46 の競合 rFID に到達している。
興味深いことに、プロローグトークンはAR勾配のみによって駆動され、創発的な意味構造を示す: 16個のプロローグトークンの線形プローブは、標準トークンからの最初の16個のトークンの23.71%をはるかに上回る35.88%のTop-1に達する。
生成品質は、元の表現をそのまま残しながら、別々に学習した生成表現を導入することで改善できる。
関連論文リスト
- Learning Discrete Autoregressive Priors with Wasserstein Gradient Flow [17.114307498606724]
離散画像トークン化器は、まず再構成用、次に凍結トークンシーケンスに適合した事前モデルという2つの段階で訓練される。
我々はこのミスマッチを,潜時変分学習を3つの整合条件に分解する三部変分整合(TVC)を用いて解析する。
我々はこの信号をWasserstein-gradient-flow updateで最適化する。
論文 参考訳(メタデータ) (2026-05-07T12:41:46Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - VA-$π$: Variational Policy Alignment for Pixel-Aware Autoregressive Generation [65.22452273252428]
VA-$は自動回帰視覚生成を最適化するポストトレーニングフレームワークである。
ピクセル再構成と自己回帰モデリングを統一する。
FIDを14.36から7.65に削減し、ISをLlamaGen-XXLで86.55から116.70に改善する。
論文 参考訳(メタデータ) (2025-12-22T18:54:30Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。