論文の概要: Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization
- arxiv url: http://arxiv.org/abs/2602.18896v1
- Date: Sat, 21 Feb 2026 16:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.380232
- Title: Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization
- Title(参考訳): 静的性を超えて: ベクトル量子化におけるコードブックの崩壊を再考する
- Authors: Hao Lu, Onur C. Koyun, Yongxin Guo, Zhengjie Zhu, Abbas Alili, Metin Nafi Gurcan,
- Abstract要約: エンコーダがドリフトすると、未選択のコードベクトルは更新を受け取れなくなり、徐々に非アクティブになる。
そこで我々は,NSVQ(Non-Stationary Vector Quantization)とTransformer-based Vector Quantization(TransVQ)の2つの新しい手法を提案する。
CelebA-HQデータセットの実験では、どちらの手法もほぼ完全なコードブックの利用と再現性の向上を実現している。
- 参考スコア(独自算出の注目度): 12.305907179979426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector Quantization (VQ) underpins many modern generative frameworks such as VQ-VAE, VQ-GAN, and latent diffusion models. Yet, it suffers from the persistent problem of codebook collapse, where a large fraction of code vectors remains unused during training. This work provides a new theoretical explanation by identifying the nonstationary nature of encoder updates as the fundamental cause of this phenomenon. We show that as the encoder drifts, unselected code vectors fail to receive updates and gradually become inactive. To address this, we propose two new methods: Non-Stationary Vector Quantization (NSVQ), which propagates encoder drift to non-selected codes through a kernel-based rule, and Transformer-based Vector Quantization (TransVQ), which employs a lightweight mapping to adaptively transform the entire codebook while preserving convergence to the k-means solution. Experiments on the CelebA-HQ dataset demonstrate that both methods achieve near-complete codebook utilization and superior reconstruction quality compared to baseline VQ variants, providing a principled and scalable foundation for future VQ-based generative models. The code is available at: https://github.com/CAIR- LAB- WFUSM/NSVQ-TransVQ.git
- Abstract(参考訳): ベクトル量子化(VQ)は、VQ-VAE(英語版)、VQ-GAN(英語版)、潜伏拡散モデル(英語版)などの多くの近代的な生成フレームワークを支える。
しかし、これはコードブックの崩壊という永続的な問題に悩まされており、トレーニング中にコードベクターの大部分が使われないままである。
この研究は、エンコーダ更新の非定常性質をこの現象の根本的な原因として同定することで、新たな理論的説明を提供する。
エンコーダがドリフトすると、未選択のコードベクトルは更新を受け取れなくなり、徐々に非アクティブになる。
そこで本研究では,カーネルベースのルールを用いて,エンコーダドリフトを非選択コードに伝達する非定常ベクトル量子化 (NSVQ) と,k-meansソリューションへの収束を維持しながら,コードブック全体を適応的に変換する軽量マッピングを用いたTransformer-based Vector Quantization (TransVQ) の2つの新しい手法を提案する。
CelebA-HQデータセットの実験では、両手法がベースラインのVQ変種と比較してほぼ完全に近いコードブック利用と再現性の向上を実現し、将来のVQベースの生成モデルのための原則的かつスケーラブルな基盤を提供する。
コードは以下の通りである。 https://github.com/CAIR- LAB- WFUSM/NSVQ-TransVQ.git
関連論文リスト
- Generalized Radius and Integrated Codebook Transforms for Differentiable Vector Quantization [11.898954874548073]
我々は、VQを完全に差別化しつつ、前方パスにハードアサインを保持する統一的なサロゲートフレームワークを導入する。
GRIT-VQは、既存のVQの変種と比較して、復元誤差、生成品質、精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-01T10:22:35Z) - Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization [60.294965457786844]
ベクトル量子化(VQ)は、画像生成のための離散トークン化器において重要な要素である。
VQBridgeは、地図関数法に基づく堅牢でスケーラブルで効率的なプロジェクタである。
FVQは262kのコードブックでも100%のコードブック利用が可能である。
論文 参考訳(メタデータ) (2025-09-12T11:08:21Z) - Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [33.46194711570412]
ベクトル量子化(VQ)は教師なし学習における連続表現の離散化に不可欠である。
VQは表現の崩壊に悩まされ、コードブックの利用率が低下し、スケーラビリティが制限される。
遅延ベースで学習可能な線形変換層を通じてコードベクトルを再パラメータ化する textbfSimpletextbfVQ を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:40:18Z) - Restructuring Vector Quantization with the Rotation Trick [36.03697966463205]
ベクトル量子化変分オートエンコーダ(VQ-VAE)は、連続的な入力を離散潜在空間に圧縮し、最小限の歪みで再構成するように設計されている。
ベクトル量子化は微分不可能であるため、エンコーダへの勾配はベクトル量子化層を通り抜けるのではなく、直線的な近似で流れる。
本稿では,VQ-VAEのベクトル量子化層を通じて勾配を伝搬する方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T23:39:34Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。