論文の概要: MacTok: Robust Continuous Tokenization for Image Generation
- arxiv url: http://arxiv.org/abs/2603.29634v1
- Date: Tue, 31 Mar 2026 12:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.594568
- Title: MacTok: Robust Continuous Tokenization for Image Generation
- Title(参考訳): MacTok: イメージ生成のためのロバストな継続的トークン化
- Authors: Hengyu Zeng, Xin Gao, Guanghao Li, Yuxiang Yan, Jiaoyang Ruan, Junpeng Ma, Haoyu Albert Wang, Jian Pu,
- Abstract要約: textbfMacTokは1D textbfContinuous textbfTokenizerで、コンパクトで堅牢な表現を学ぶ。
MacTokは、画像内の情報領域を強調するためにランダムマスキングとDINO誘導セマンティックマスキングの両方を適用している。
ImageNetでは、MacTokは256$times$256で1.44の競合gFID、SiT-XLで512$times$512で最先端の1.52を達成している。
- 参考スコア(独自算出の注目度): 19.46209544955821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous image tokenizers enable efficient visual generation, and those based on variational frameworks can learn smooth, structured latent representations through KL regularization. Yet this often leads to posterior collapse when using fewer tokens, where the encoder fails to encode informative features into the compressed latent space. To address this, we introduce \textbf{MacTok}, a \textbf{M}asked \textbf{A}ugmenting 1D \textbf{C}ontinuous \textbf{Tok}enizer that leverages image masking and representation alignment to prevent collapse while learning compact and robust representations. MacTok applies both random masking to regularize latent learning and DINO-guided semantic masking to emphasize informative regions in images, forcing the model to encode robust semantics from incomplete visual evidence. Combined with global and local representation alignment, MacTok preserves rich discriminative information in a highly compressed 1D latent space, requiring only 64 or 128 tokens. On ImageNet, MacTok achieves a competitive gFID of 1.44 at 256$\times$256 and a state-of-the-art 1.52 at 512$\times$512 with SiT-XL, while reducing token usage by up to 64$\times$. These results confirm that masking and semantic guidance together prevent posterior collapse and achieve efficient, high-fidelity tokenization.
- Abstract(参考訳): 連続画像トークン化器は効率的な視覚生成を可能にし、変分フレームワークに基づいてKL正規化によってスムーズで構造化された潜在表現を学習することができる。
しかし、これは、エンコーダが圧縮された潜在空間に情報的特徴をエンコードできないトークンが少ない場合に、しばしば後続の崩壊を引き起こす。
これを解決するために、コンパクトでロバストな表現を学習しながら、画像のマスキングと表現アライメントを活用する1D \textbf{C}ontinuous \textbf{Tok}enizer の \textbf{MacTok}, a \textbf{M}asked \textbf{A}ugmenting 1D \textbf{C}ontinuous \textbf{Tok}enizer を導入し、分解を防止する。
MacTokはランダムマスキングとDINO誘導セマンティックマスキングを併用して画像内の情報領域を強調し、不完全な視覚的証拠から堅牢なセマンティックスをエンコードする。
グローバルおよび局所的な表現アライメントと組み合わせて、MacTokは高度に圧縮された1D潜在空間においてリッチな識別情報を保存し、64または128トークンしか必要としない。
ImageNetでは、MacTokは256$\times$256で1.44で、SiT-XLで512$\times$512で最先端の1.52で、トークン使用率を64$\times$まで下げている。
これらの結果から,マスキングとセマンティックガイダンスが組み合わさって後部崩壊を防ぎ,効率的な高忠実なトークン化を実現することが確認された。
関連論文リスト
- UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model [50.68870074090426]
我々はUniWeTokを紹介した。UniWeTokはUniified Multimodal Large Language Modelsのための統一された離散トークンである。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
我々は,UniWeTokの適応性を高めるために,様々な画像解像度と知覚に敏感なシナリオを横断する3段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:07:19Z) - Improving Flexible Image Tokenizers for Autoregressive Image Generation [53.238708824055664]
textbfReToKは、アンダーライン冗長なアンダーラインToken Paddingと階層的セマンティック正規化を備えたフレキシブルなトークンライザである。
本手法は, フレキシブルかつ固定長のトークン化器と比較して, 優れた生成性能を実現する。
論文 参考訳(メタデータ) (2026-01-04T14:11:45Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [31.932323809073477]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization [20.109136454526233]
本稿では,現在のビデオトークン化手法の限界を克服する新しいビデオトークン化ツールであるSweetTokを提案する。
SweetTokは、textbfDecoupled textbfAutotextbfEncoder (DQAE)を介して、異なる空間的および時間的クエリを通して視覚入力を圧縮する
SweetTok は UCF-101 データセット上で textbf42.8% w.r.t rFVD でビデオ再構成結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-12-11T13:48:06Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。