Fugu-MT 論文翻訳(概要): Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization

論文の概要: Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization

arxiv url: http://arxiv.org/abs/2602.18896v1
Date: Sat, 21 Feb 2026 16:36:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.380232
Title: Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization
Title（参考訳）: 静的性を超えて: ベクトル量子化におけるコードブックの崩壊を再考する
Authors: Hao Lu, Onur C. Koyun, Yongxin Guo, Zhengjie Zhu, Abbas Alili, Metin Nafi Gurcan,
Abstract要約: エンコーダがドリフトすると、未選択のコードベクトルは更新を受け取れなくなり、徐々に非アクティブになる。そこで我々は,NSVQ(Non-Stationary Vector Quantization)とTransformer-based Vector Quantization(TransVQ)の2つの新しい手法を提案する。 CelebA-HQデータセットの実験では、どちらの手法もほぼ完全なコードブックの利用と再現性の向上を実現している。
参考スコア（独自算出の注目度）: 12.305907179979426
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vector Quantization (VQ) underpins many modern generative frameworks such as VQ-VAE, VQ-GAN, and latent diffusion models. Yet, it suffers from the persistent problem of codebook collapse, where a large fraction of code vectors remains unused during training. This work provides a new theoretical explanation by identifying the nonstationary nature of encoder updates as the fundamental cause of this phenomenon. We show that as the encoder drifts, unselected code vectors fail to receive updates and gradually become inactive. To address this, we propose two new methods: Non-Stationary Vector Quantization (NSVQ), which propagates encoder drift to non-selected codes through a kernel-based rule, and Transformer-based Vector Quantization (TransVQ), which employs a lightweight mapping to adaptively transform the entire codebook while preserving convergence to the k-means solution. Experiments on the CelebA-HQ dataset demonstrate that both methods achieve near-complete codebook utilization and superior reconstruction quality compared to baseline VQ variants, providing a principled and scalable foundation for future VQ-based generative models. The code is available at: https://github.com/CAIR- LAB- WFUSM/NSVQ-TransVQ.git
Abstract（参考訳）: ベクトル量子化(VQ)は、VQ-VAE(英語版)、VQ-GAN(英語版)、潜伏拡散モデル(英語版)などの多くの近代的な生成フレームワークを支える。しかし、これはコードブックの崩壊という永続的な問題に悩まされており、トレーニング中にコードベクターの大部分が使われないままである。この研究は、エンコーダ更新の非定常性質をこの現象の根本的な原因として同定することで、新たな理論的説明を提供する。エンコーダがドリフトすると、未選択のコードベクトルは更新を受け取れなくなり、徐々に非アクティブになる。そこで本研究では,カーネルベースのルールを用いて,エンコーダドリフトを非選択コードに伝達する非定常ベクトル量子化 (NSVQ) と,k-meansソリューションへの収束を維持しながら,コードブック全体を適応的に変換する軽量マッピングを用いたTransformer-based Vector Quantization (TransVQ) の2つの新しい手法を提案する。 CelebA-HQデータセットの実験では、両手法がベースラインのVQ変種と比較してほぼ完全に近いコードブック利用と再現性の向上を実現し、将来のVQベースの生成モデルのための原則的かつスケーラブルな基盤を提供する。コードは以下の通りである。 https://github.com/CAIR- LAB- WFUSM/NSVQ-TransVQ.git

関連論文リスト

Generalized Radius and Integrated Codebook Transforms for Differentiable Vector Quantization [11.898954874548073]
我々は、VQを完全に差別化しつつ、前方パスにハードアサインを保持する統一的なサロゲートフレームワークを導入する。 GRIT-VQは、既存のVQの変種と比較して、復元誤差、生成品質、精度を一貫して改善する。
論文参考訳（メタデータ） (2026-02-01T10:22:35Z)
Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization [60.294965457786844]
ベクトル量子化(VQ)は、画像生成のための離散トークン化器において重要な要素である。 VQBridgeは、地図関数法に基づく堅牢でスケーラブルで効率的なプロジェクタである。 FVQは262kのコードブックでも100%のコードブック利用が可能である。
論文参考訳（メタデータ） (2025-09-12T11:08:21Z)
Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。 IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文参考訳（メタデータ） (2024-12-03T18:59:10Z)
Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [33.46194711570412]
ベクトル量子化(VQ)は教師なし学習における連続表現の離散化に不可欠である。 VQは表現の崩壊に悩まされ、コードブックの利用率が低下し、スケーラビリティが制限される。遅延ベースで学習可能な線形変換層を通じてコードベクトルを再パラメータ化する textbfSimpletextbfVQ を提案する。
論文参考訳（メタデータ） (2024-11-04T12:40:18Z)
Restructuring Vector Quantization with the Rotation Trick [36.03697966463205]
ベクトル量子化変分オートエンコーダ(VQ-VAE)は、連続的な入力を離散潜在空間に圧縮し、最小限の歪みで再構成するように設計されている。ベクトル量子化は微分不可能であるため、エンコーダへの勾配はベクトル量子化層を通り抜けるのではなく、直線的な近似で流れる。本稿では,VQ-VAEのベクトル量子化層を通じて勾配を伝搬する方法を提案する。
論文参考訳（メタデータ） (2024-10-08T23:39:34Z)
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文参考訳（メタデータ） (2024-03-18T03:17:08Z)
Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。 4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文参考訳（メタデータ） (2024-03-15T07:24:13Z)
Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文参考訳（メタデータ） (2023-07-27T18:31:04Z)
Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:05Z)
VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel Decoder [83.63843671885716]
本稿では,VQFRを用いた顔復元手法を提案する。 VQFRは高品質な顔から抽出された高品質の低レベル特徴バンクを利用する。 VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルな特徴をさらに融合させるため、並列デコーダを提案する。
論文参考訳（メタデータ） (2022-05-13T17:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。