論文の概要: Improving Flexible Image Tokenizers for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2601.01535v1
- Date: Sun, 04 Jan 2026 14:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.470009
- Title: Improving Flexible Image Tokenizers for Autoregressive Image Generation
- Title(参考訳): 自己回帰画像生成のためのフレキシブルイメージトケナイザの改良
- Authors: Zixuan Fu, Lanqing Guo, Chong Wang, Binbin Song, Ding Liu, Bihan Wen,
- Abstract要約: textbfReToKは、アンダーライン冗長なアンダーラインToken Paddingと階層的セマンティック正規化を備えたフレキシブルなトークンライザである。
本手法は, フレキシブルかつ固定長のトークン化器と比較して, 優れた生成性能を実現する。
- 参考スコア(独自算出の注目度): 53.238708824055664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flexible image tokenizers aim to represent an image using an ordered 1D variable-length token sequence. This flexible tokenization is typically achieved through nested dropout, where a portion of trailing tokens is randomly truncated during training, and the image is reconstructed using the remaining preceding sequence. However, this tail-truncation strategy inherently concentrates the image information in the early tokens, limiting the effectiveness of downstream AutoRegressive (AR) image generation as the token length increases. To overcome these limitations, we propose \textbf{ReToK}, a flexible tokenizer with \underline{Re}dundant \underline{Tok}en Padding and Hierarchical Semantic Regularization, designed to fully exploit all tokens for enhanced latent modeling. Specifically, we introduce \textbf{Redundant Token Padding} to activate tail tokens more frequently, thereby alleviating information over-concentration in the early tokens. In addition, we apply \textbf{Hierarchical Semantic Regularization} to align the decoding features of earlier tokens with those from a pre-trained vision foundation model, while progressively reducing the regularization strength toward the tail to allow finer low-level detail reconstruction. Extensive experiments demonstrate the effectiveness of ReTok: on ImageNet 256$\times$256, our method achieves superior generation performance compared with both flexible and fixed-length tokenizers. Code will be available at: \href{https://github.com/zfu006/ReTok}{https://github.com/zfu006/ReTok}
- Abstract(参考訳): フレキシブルな画像トークンライザは、順序付き1D可変長トークンシーケンスを使用して画像を表現することを目的としている。
このフレキシブルなトークン化は、通常、ネストされたドロップアウトによって達成される。
しかし、このテールトランケーション戦略は本質的に初期トークンに画像情報を集中させ、トークン長が増加するにつれて下流のAutoRegressive(AR)画像生成の有効性を制限する。
これらの制限を克服するために, 拡張潜在モデリングのために, すべてのトークンをフル活用するために設計された, \textbf{ReToK}, \underline{Re}dundant \underline{Tok}en Padding and Hierarchical Semantic Regularization を用いたフレキシブルトークン化器を提案する。
具体的には、より頻繁にテールトークンを起動するために \textbf{Redundant Token Padding} を導入し、初期トークンの過度な集中を緩和する。
さらに,従来のトークンの復号化特徴と事前学習された視覚基盤モデルとの整合性を図り,より微細な低レベルディテール再構築を可能にするために,尻尾に対する正規化強度を段階的に低減する。
ImageNet 256$\times$256では、フレキシブルかつ固定長のトークン化器と比較して、生成性能が優れている。
コードは以下の通り。 \href{https://github.com/zfu006/ReTok}{https://github.com/zfu006/ReTok}
関連論文リスト
- Hita: Holistic Tokenizer for Autoregressive Image Generation [56.81871174745175]
自己回帰(AR)画像生成のための新しい画像トークンであるtextitHita を紹介する。
学習可能な全体的クエリとローカルパッチトークンを備えた、全体論的から局所的なトークン化スキームを導入している。
論文 参考訳(メタデータ) (2025-07-03T06:44:26Z) - FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [16.76602756308683]
可変長の1Dトークンシーケンスに2D画像を投影するトークンライザであるFlexTokを紹介する。
簡単なGPT型変換器を用いて, 自己回帰生成設定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-02-19T18:59:44Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。