論文の概要: Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization
- arxiv url: http://arxiv.org/abs/2509.10140v1
- Date: Fri, 12 Sep 2025 11:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.058893
- Title: Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization
- Title(参考訳): 100%コードブック活用によるベクトル量子ネットワークのスケーラブルトレーニング
- Authors: Yifan Chang, Jie Qin, Limeng Qiao, Xiaofeng Wang, Zheng Zhu, Lin Ma, Xingang Wang,
- Abstract要約: ベクトル量子化(VQ)は、画像生成のための離散トークン化器において重要な要素である。
VQBridgeは、地図関数法に基づく堅牢でスケーラブルで効率的なプロジェクタである。
FVQは262kのコードブックでも100%のコードブック利用が可能である。
- 参考スコア(独自算出の注目度): 60.294965457786844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector quantization (VQ) is a key component in discrete tokenizers for image generation, but its training is often unstable due to straight-through estimation bias, one-step-behind updates, and sparse codebook gradients, which lead to suboptimal reconstruction performance and low codebook usage. In this work, we analyze these fundamental challenges and provide a simple yet effective solution. To maintain high codebook usage in VQ networks (VQN) during learning annealing and codebook size expansion, we propose VQBridge, a robust, scalable, and efficient projector based on the map function method. VQBridge optimizes code vectors through a compress-process-recover pipeline, enabling stable and effective codebook training. By combining VQBridge with learning annealing, our VQN achieves full (100%) codebook usage across diverse codebook configurations, which we refer to as FVQ (FullVQ). Through extensive experiments, we demonstrate that FVQ is effective, scalable, and generalizable: it attains 100% codebook usage even with a 262k-codebook, achieves state-of-the-art reconstruction performance, consistently improves with larger codebooks, higher vector channels, or longer training, and remains effective across different VQ variants. Moreover, when integrated with LlamaGen, FVQ significantly enhances image generation performance, surpassing visual autoregressive models (VAR) by 0.5 and diffusion models (DiT) by 0.2 rFID, highlighting the importance of high-quality tokenizers for strong autoregressive image generation.
- Abstract(参考訳): ベクトル量子化(VQ)は、画像生成のための離散トークン化器において重要な要素であるが、そのトレーニングは、ストレートスルー推定バイアス、ワンステップビハインド更新、スパースコードブック勾配による不安定な場合が多い。
本研究では、これらの基本的な課題を分析し、シンプルだが効果的なソリューションを提供する。
本稿では,地図関数法に基づく堅牢でスケーラブルで効率的なプロジェクタであるVQBridgeを提案する。
VQBridgeは圧縮プロセス回復パイプラインを通じてコードベクトルを最適化し、安定的で効果的なコードブックトレーニングを可能にする。
VQBridgeと学習アニーリングを組み合わせることで、当社のVQNは、FVQ(FullVQ)と呼ばれるさまざまなコードブック構成にまたがる完全な(100%)コードブック使用を実現しています。
FVQは262kのコードブックでも100%のコードブック使用を実現し、最先端の再構築性能を実現し、より大きなコードブック、より高いベクトルチャネル、より長いトレーニングで一貫して改善し、異なるVQの亜種で有効である。
さらに、LlamaGenと統合すると、FVQは画像生成性能を大幅に向上させ、視覚自己回帰モデル(VAR)を0.5倍、拡散モデル(DiT)を0.2rFIDで上回り、強力な自己回帰画像生成のための高品質なトークン化器の重要性を強調した。
関連論文リスト
- MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization [35.57897644198773]
本稿では,離散コードブックの表現能力を向上する新しい手法MGVQを提案する。
MGVQはImageNetと8つのゼロショットベンチマークの両方で最先端のパフォーマンスを実現している。
その結果、再構成におけるMGVQの優位性を強調し、HD画像処理タスクにおける忠実性を維持するための道を開いた。
論文 参考訳(メタデータ) (2025-07-10T17:59:54Z) - Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation [54.2574228021317]
XQ-GANは画像再構成と生成の両方のために設計された画像トークン化フレームワークである。
我々のフレームワークは、ベクトル量子化(VQ)、残留量子化(RQ)、マルチスケール残留量子化(MSVQ)、製品量子化(PQ)、バイナリ球面量子化(BSQ)など、最先端の量子化技術を統合する。
標準の ImageNet 256x256 ベンチマークでは,本モデルが MAGVIT-v2 (0.9 rFID) と VAR (0.9 rFID) を大幅に上回り,0.64 の rFID を達成した。
論文 参考訳(メタデータ) (2024-12-02T17:58:06Z) - Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99% [35.710953589794855]
本稿では,VQGAN-LC (Large Codebook) という新しい画像量子化モデルを提案する。
本稿では,画像再構成,画像分類,GPTを用いた自己回帰画像生成,拡散およびフローベース生成モデルによる画像生成など,さまざまなタスクにおいて,モデルの性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T17:59:57Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。