論文の概要: Addressing Representation Collapse in Vector Quantized Models with One Linear Layer
- arxiv url: http://arxiv.org/abs/2411.02038v1
- Date: Mon, 04 Nov 2024 12:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:42.399867
- Title: Addressing Representation Collapse in Vector Quantized Models with One Linear Layer
- Title(参考訳): 1つの線形層を持つベクトル量子化モデルにおける対応表現の崩壊
- Authors: Yongxin Zhu, Bocheng Li, Yifei Xin, Linli Xu,
- Abstract要約: ベクトル量子化(英: Vector Quantization, VQ)は、連続表現を離散符号に変換する方法である。
VQモデルは、潜在空間における表現崩壊の問題によってしばしば妨げられる。
線形変換層を通じてコードベクトルを再パラメータ化する新しい手法である textbfSimVQ を提案する。
- 参考スコア(独自算出の注目度): 10.532262196027752
- License:
- Abstract: Vector Quantization (VQ) is a widely used method for converting continuous representations into discrete codes, which has become fundamental in unsupervised representation learning and latent generative models. However, VQ models are often hindered by the problem of representation collapse in the latent space, which leads to low codebook utilization and limits the scalability of the codebook for large-scale training. Existing methods designed to mitigate representation collapse typically reduce the dimensionality of latent space at the expense of model capacity, which do not fully resolve the core issue. In this study, we conduct a theoretical analysis of representation collapse in VQ models and identify its primary cause as the disjoint optimization of the codebook, where only a small subset of code vectors are updated through gradient descent. To address this issue, we propose \textbf{SimVQ}, a novel method which reparameterizes the code vectors through a linear transformation layer based on a learnable latent basis. This transformation optimizes the \textit{entire linear space} spanned by the codebook, rather than merely updating \textit{the code vector} selected by the nearest-neighbor search in vanilla VQ models. Although it is commonly understood that the multiplication of two linear matrices is equivalent to applying a single linear layer, our approach works surprisingly well in resolving the collapse issue in VQ models with just one linear layer. We validate the efficacy of SimVQ through extensive experiments across various modalities, including image and audio data with different model architectures. Our code is available at \url{https://github.com/youngsheen/SimVQ}.
- Abstract(参考訳): ベクトル量子化(VQ)は、連続表現を離散符号に変換するために広く用いられている手法であり、教師なし表現学習や潜在生成モデルにおいて基礎となっている。
しかしながら、VQモデルは、遅延空間における表現崩壊の問題によってしばしば妨げられ、それによってコードブックの利用が低くなり、大規模トレーニングのためのコードブックのスケーラビリティが制限される。
表現の崩壊を軽減するために設計された既存の手法は、モデル容量を犠牲にして潜在空間の次元を減少させるのが一般的であり、これはコアの問題を完全に解決するものではない。
本研究では,VQモデルにおける表現崩壊の理論的解析を行い,その主な原因をコードブックの解離最適化として同定する。
この問題に対処するために,学習可能な遅延ベースに基づいて線形変換層を通じてコードベクトルを再パラメータ化する新しい手法である \textbf{SimVQ} を提案する。
この変換は、バニラVQモデルで最寄りのサーチによって選択された \textit{the code vector} を単に更新するのではなく、コードブックに散らばる \textit{entire linear space} を最適化する。
2つの線形行列の乗算は1つの線形層を適用することと等価であると一般的には理解されているが、我々のアプローチは1つの線形層を持つVQモデルの崩壊問題を解くのに驚くほどうまく機能する。
我々は,様々なモデルアーキテクチャを用いた画像データや音声データを含む様々なモダリティの広範な実験を通じて,SimVQの有効性を検証する。
私たちのコードは \url{https://github.com/youngsheen/SimVQ} で利用可能です。
関連論文リスト
- LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling [3.9426000822656224]
より潜在的な空間はより表現力が高く、ベクトル量子化アプローチよりも表現性がよいことを示す。
以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-16T08:20:58Z) - Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。
CBMには、さらなる概念のセットが必要である。
CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-04-04T09:43:43Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient
Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。
LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。
VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文 参考訳(メタデータ) (2023-10-13T20:03:18Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - SC-VAE: Sparse Coding-based Variational Autoencoder with Learned ISTA [0.6770292596301478]
そこで本研究では,ISTA (SC-VAE) を用いたスパース符号化に基づくVAEを新たに導入し,スパース符号化を可変オートエンコーダフレームワークに統合する。
2つの画像データセットに対する実験により、我々のモデルは、最先端の手法と比較して、画像再構成結果の改善を実現していることが示された。
論文 参考訳(メタデータ) (2023-03-29T13:18:33Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。