論文の概要: ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2601.03955v1
- Date: Wed, 07 Jan 2026 14:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.582485
- Title: ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation
- Title(参考訳): ResTok: 自己回帰画像生成のための1次元視覚トケナイザにおける階層的残差学習
- Authors: Xu Zhang, Cheng Da, Huan Yang, Kun Gai, Ming Lu, Zhan Ma,
- Abstract要約: Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
- 参考スコア(独自算出の注目度): 64.84095852784714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 1D visual tokenizers for autoregressive (AR) generation largely follow the design principles of language modeling, as they are built directly upon transformers whose priors originate in language, yielding single-hierarchy latent tokens and treating visual data as flat sequential token streams. However, this language-like formulation overlooks key properties of vision, particularly the hierarchical and residual network designs that have long been essential for convergence and efficiency in visual models. To bring "vision" back to vision, we propose the Residual Tokenizer (ResTok), a 1D visual tokenizer that builds hierarchical residuals for both image tokens and latent tokens. The hierarchical representations obtained through progressively merging enable cross-level feature fusion at each layer, substantially enhancing representational capacity. Meanwhile, the semantic residuals between hierarchies prevent information overlap, yielding more concentrated latent distributions that are easier for AR modeling. Cross-level bindings consequently emerge without any explicit constraints. To accelerate the generation process, we further introduce a hierarchical AR generator that substantially reduces sampling steps by predicting an entire level of latent tokens at once rather than generating them strictly token-by-token. Extensive experiments demonstrate that restoring hierarchical residual priors in visual tokenization significantly improves AR image generation, achieving a gFID of 2.34 on ImageNet-256 with only 9 sampling steps. Code is available at https://github.com/Kwai-Kolors/ResTok.
- Abstract(参考訳): 既存の自動回帰(AR)生成用の1Dビジュアルトークンライザは、言語モデリングの設計原則に大きく従っている。
しかし、この言語のような定式化は視覚の重要な性質、特に視覚モデルにおける収束と効率のために長年必要とされてきた階層的・残留的なネットワーク設計を見落としている。
Residual Tokenizer(ResTok)は、画像トークンと潜在トークンの両方の階層的残差を構築する1Dビジュアルトークンライザである。
段階的にマージすることで得られる階層的表現は、各層におけるクロスレベル特徴融合を可能にし、表現能力を大幅に向上させる。
一方、階層間のセマンティックな残差は情報の重複を防ぎ、ARモデリングが容易なより集中的な潜伏分布をもたらす。
結果として、明示的な制約なしにクロスレベルバインディングが出現する。
生成過程を高速化するために,厳密なトークン・バイ・トークンを生成するのではなく,遅延トークンのレベル全体を一度に予測することで,サンプリングステップを大幅に削減する階層型ARジェネレータを導入する。
大規模な実験により、視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し、ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
コードはhttps://github.com/Kwai-Kolors/ResTok.comで入手できる。
関連論文リスト
- Learning to Expand Images for Efficient Visual Autoregressive Modeling [26.400433163290586]
本稿では、人間の視覚系の中心外知覚パターンをエミュレートする新しい生成パラダイムである、拡張自己回帰表現(EAR)を紹介する。
EARは、画像トークンを中心からスパイラル順に展開し、徐々に外側に展開し、空間的連続性を保持し、効率的な並列復号を可能にする。
論文 参考訳(メタデータ) (2025-11-19T14:55:07Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [81.58846231702026]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。
我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。
数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-11T17:59:58Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。