論文の概要: Holistic Tokenizer for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2507.02358v1
- Date: Thu, 03 Jul 2025 06:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.777222
- Title: Holistic Tokenizer for Autoregressive Image Generation
- Title(参考訳): 自己回帰画像生成のためのホロスティックトケナイザ
- Authors: Anlin Zheng, Haochen Wang, Yucheng Zhao, Weipeng Deng, Tiancai Wang, Xiangyu Zhang, Xiaojuan Qi,
- Abstract要約: 自己回帰(AR)画像生成のための新しい画像トークンであるtextitHita を紹介する。
学習可能な全体的クエリとローカルパッチトークンを備えた、全体論的から局所的なトークン化スキームを導入している。
実験では、HitaはARジェネレータのトレーニング速度を加速し、バニラ・トークンーザでトレーニングした者を上回る性能を発揮する。
- 参考スコア(独自算出の注目度): 56.81871174745175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vanilla autoregressive image generation model generates visual tokens in a step-by-step fashion, which limits the ability to capture holistic relationships among token sequences. Moreover, most visual tokenizers map local image patches into latent tokens, leading to limited global information. To address this, we introduce \textit{Hita}, a novel image tokenizer for autoregressive (AR) image generation. It introduces a holistic-to-local tokenization scheme with learnable holistic queries and local patch tokens. Besides, Hita incorporates two key strategies for improved alignment with the AR generation process: 1) it arranges a sequential structure with holistic tokens at the beginning followed by patch-level tokens while using causal attention to maintain awareness of previous tokens; and 2) before feeding the de-quantized tokens into the decoder, Hita adopts a lightweight fusion module to control information flow to prioritize holistic tokens. Extensive experiments show that Hita accelerates the training speed of AR generators and outperforms those trained with vanilla tokenizers, achieving \textbf{2.59 FID} and \textbf{281.9 IS} on the ImageNet benchmark. A detailed analysis of the holistic representation highlights its ability to capture global image properties such as textures, materials, and shapes. Additionally, Hita also demonstrates effectiveness in zero-shot style transfer and image in-painting. The code is available at \href{https://github.com/CVMI-Lab/Hita}{https://github.com/CVMI-Lab/Hita}
- Abstract(参考訳): バニラ自己回帰画像生成モデルは、ステップバイステップで視覚トークンを生成し、トークンシーケンス間の全体的関係をキャプチャする能力を制限する。
さらに、ほとんどのビジュアルトークンエータは、ローカルイメージパッチを潜在トークンにマッピングし、グローバルな情報に制限を与える。
そこで本稿では,自己回帰(AR)画像生成のための新しい画像トークンである \textit{Hita} を紹介する。
学習可能な全体的クエリとローカルパッチトークンを備えた、全体論的から局所的なトークン化スキームを導入している。
さらに、Hitaには、AR生成プロセスとの整合性を改善するための2つの重要な戦略が組み込まれている。
1) 先述したトークンの認識を維持するために因果的注意を用いて, 全体的トークンを初めから順に配置し, そして, パッチレベルトークンを連続的に配置する。
2) 復号化トークンをデコーダに送る前に、Hitaは情報フローを制御するために軽量のフュージョンモジュールを採用し、全体的なトークンを優先順位付けする。
大規模な実験により、HitaはARジェネレータのトレーニング速度を加速し、バニラ・トークンーザでトレーニングされた者より優れており、ImageNetベンチマークで \textbf{2.59 FID} と \textbf{281.9 IS} を達成した。
全体像の詳細な分析は、テクスチャ、材料、形状などのグローバルな画像特性を捉える能力を強調している。
さらに、Hitaはゼロショットスタイルの転送や画像のインペインティングの効果も示している。
コードは \href{https://github.com/CVMI-Lab/Hita}{https://github.com/CVMI-Lab/Hita} で公開されている。
関連論文リスト
- SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization [20.109136454526233]
本稿では,現在のビデオトークン化手法の限界を克服する新しいビデオトークン化ツールであるSweetTokを提案する。
SweetTokは、textbfDecoupled textbfAutotextbfEncoder (DQAE)を介して、異なる空間的および時間的クエリを通して視覚入力を圧縮する
SweetTok は UCF-101 データセット上で textbf42.8% w.r.t rFVD でビデオ再構成結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-12-11T13:48:06Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。