論文の概要: HieraTok: Multi-Scale Visual Tokenizer Improves Image Reconstruction and Generation
- arxiv url: http://arxiv.org/abs/2509.23736v1
- Date: Sun, 28 Sep 2025 08:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.411312
- Title: HieraTok: Multi-Scale Visual Tokenizer Improves Image Reconstruction and Generation
- Title(参考訳): HieraTok: 画像再構成と生成を改善するマルチスケールビジュアルトケナイザ
- Authors: Cong Chen, Ziyuan Huang, Cheng Zou, Muzhi Zhu, Kaixiang Ji, Jiajia Liu, Jingdong Chen, Hao Chen, Chunhua Shen,
- Abstract要約: HieraTokは、ViT(Multi-scale Vision Transformer)ベースの新しいトークンである。
これらの設計を組み合わせることで、HieraTokは画像再構成と生成タスクの両方において大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 77.92119705470284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present HieraTok, a novel multi-scale Vision Transformer (ViT)-based tokenizer that overcomes the inherent limitation of modeling single-scale representations. This is realized through two key designs: (1) multi-scale downsampling applied to the token map generated by the tokenizer encoder, producing a sequence of multi-scale tokens, and (2) a scale-causal attention mechanism that enables the progressive flow of information from low-resolution global semantic features to high-resolution structural details. Coupling these designs, HieraTok achieves significant improvements in both image reconstruction and generation tasks. Under identical settings, the multi-scale visual tokenizer outperforms its single-scale counterpart by a 27.2\% improvement in rFID ($1.47 \rightarrow 1.07$). When integrated into downstream generation frameworks, it achieves a $1.38\times$ faster convergence rate and an 18.9\% boost in gFID ($16.4 \rightarrow 13.3$), which may be attributed to the smoother and more uniformly distributed latent space. Furthermore, by scaling up the tokenizer's training, we demonstrate its potential by a sota rFID of 0.45 and a gFID of 1.82 among ViT tokenizers. To the best of our knowledge, we are the first to introduce multi-scale ViT-based tokenizer in image reconstruction and image generation. We hope our findings and designs advance the ViT-based tokenizers in visual generation tasks.
- Abstract(参考訳): 本研究では,新しいマルチスケールビジョントランスフォーマ (ViT) ベースのトークンであるHieraTokを紹介し,単一スケール表現のモデル化に固有の制限を克服する。
これは,(1)トークンライザエンコーダが生成するトークンマップに適用したマルチスケールダウンサンプリング,(2)低分解能なグローバルセマンティック特徴から高分解能な構造的詳細への情報の進行的なフローを可能にするスケール・カジュアルなアテンション機構,という2つの重要な設計を通じて実現されている。
これらの設計を組み合わせることで、HieraTokは画像再構成と生成タスクの両方において大幅な改善を実現している。
同じ設定で、このマルチスケールのビジュアルトークンは、rFID(1.47 \rightarrow 1.07$)の27.2\%の改善により、シングルスケールのトークンよりも優れている。
下流生成フレームワークに統合されると、より高速な収束率とgFID(16.4 \rightarrow 13.3$)の18.9\%アップを達成する。
さらに, トークン化剤のトレーニングをスケールアップすることにより, ソタ rFID が 0.45 であり, gFID が 1.82 であることを示す。
我々の知る限りでは、画像再構成と画像生成にマルチスケールのViTベースのトークン化器を導入するのは初めてである。
視覚生成タスクにおけるViTベースのトークン化器の進歩を期待する。
関連論文リスト
- Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T12:09:11Z) - TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [26.29803524047736]
TokenFlowは、マルチモーダル理解と生成のギャップを埋める、新しい統合イメージトークンである。
離散的な視覚入力がLLaVA-1.513Bを超える性能を初めて実証した。
我々はまた、256*256解像度のGenEvalスコア0.55の自己回帰画像生成における最先端性能を確立した。
論文 参考訳(メタデータ) (2024-12-04T06:46:55Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。