論文の概要: WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction
- arxiv url: http://arxiv.org/abs/2508.05599v1
- Date: Thu, 07 Aug 2025 17:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.972229
- Title: WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction
- Title(参考訳): WeTok:高忠実度視覚再建のための強力な離散的トークン化
- Authors: Shaobin Zhuang, Yiwei Guo, Canmiao Fu, Zhipeng Huang, Zeyue Tian, Ying Zhang, Chen Li, Yali Wang,
- Abstract要約: WeTokトークンは,従来の主要なトークンを超越した,強力で簡潔なトークンである。
潜在特徴をグループに分割し、各グループに対してルックアップフリーな量子化を行う。
生成デコーディング(GD)は、離散トークン上で条件付けられた視覚データの分布を確率的にモデル化することができる。
- 参考スコア(独自算出の注目度): 15.687542914511488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual tokenizer is a critical component for vision generation. However, the existing tokenizers often face unsatisfactory trade-off between compression ratios and reconstruction fidelity. To fill this gap, we introduce a powerful and concise WeTok tokenizer, which surpasses the previous leading tokenizers via two core innovations. (1) Group-wise lookup-free Quantization (GQ). We partition the latent features into groups, and perform lookup-free quantization for each group. As a result, GQ can efficiently overcome memory and computation limitations of prior tokenizers, while achieving a reconstruction breakthrough with more scalable codebooks. (2) Generative Decoding (GD). Different from prior tokenizers, we introduce a generative decoder with a prior of extra noise variable. In this case, GD can probabilistically model the distribution of visual data conditioned on discrete tokens, allowing WeTok to reconstruct visual details, especially at high compression ratios. Extensive experiments on mainstream benchmarks show superior performance of our WeTok. On the ImageNet 50k validation set, WeTok achieves a record-low zero-shot rFID (WeTok: 0.12 vs. FLUX-VAE: 0.18 vs. SD-VAE 3.5: 0.19). Furthermore, our highest compression model achieves a zero-shot rFID of 3.49 with a compression ratio of 768, outperforming Cosmos (384) 4.57 which has only 50% compression rate of ours. Code and models are available: https://github.com/zhuangshaobin/WeTok.
- Abstract(参考訳): 視覚トークン化器は視覚生成にとって重要なコンポーネントである。
しかし、既存のトークン化器は圧縮比と復元率の間の不満足なトレードオフに直面していることが多い。
このギャップを埋めるために、私たちは2つのコアイノベーションを通じて従来の主要なトークン化ツールを上回る、強力で簡潔なWeTokトークン化ツールを導入しました。
1)グループワイドなルックアップフリー量子化(GQ)。
潜在特徴をグループに分割し、各グループに対してルックアップフリーな量子化を行う。
その結果、GQは、よりスケーラブルなコードブックで再構築のブレークスルーを達成しつつ、プリエンタライザのメモリと計算の制限を効率的に克服することができる。
2)生成復号(GD)
先行トークン化器とは違って、余剰ノイズ変数の先行した生成デコーダを導入する。
この場合、GDは離散トークンに条件付けられた視覚データの分布を確率論的にモデル化し、特に高い圧縮比でWeTokの視覚的詳細を再構成することができる。
主要なベンチマークに関する大規模な実験は、WeTokの優れたパフォーマンスを示している。
ImageNet 50kの検証セットでは、WeTokは記録的な低速ゼロショットのrFIDを達成した(WeTok: 0.12 vs. FLUX-VAE: 0.18 vs. SD-VAE 3.5: 0.19)。
さらに, 圧縮率768のゼロショットrFIDを3.49で達成し, 圧縮率50%のコスモス(384) 4.57を上回った。
コードとモデルは、https://github.com/zhuangshaobin/WeTok.comで入手できる。
関連論文リスト
- AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [59.065471969232284]
トークン化と自己回帰モデルを整合させる新しいアラインド・トークン化器(AliTok)を提案する。
ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルをジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。
パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
論文 参考訳(メタデータ) (2025-06-05T17:45:10Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [52.58960429582813]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。
本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-11T12:09:11Z) - UniTok: A Unified Tokenizer for Visual Generation and Understanding [69.09699034036124]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。
我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。
最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文 参考訳(メタデータ) (2025-02-27T17:47:01Z) - GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2025-01-26T17:56:11Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。