Fugu-MT 論文翻訳(概要): Addressing Representation Collapse in Vector Quantized Models with One Linear Layer

論文の概要: Addressing Representation Collapse in Vector Quantized Models with One Linear Layer

arxiv url: http://arxiv.org/abs/2411.02038v2
Date: Wed, 30 Jul 2025 15:05:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 18:23:25.13823
Title: Addressing Representation Collapse in Vector Quantized Models with One Linear Layer
Title（参考訳）: 1つの線形層を持つベクトル量子化モデルにおける対応表現の崩壊
Authors: Yongxin Zhu, Bocheng Li, Yifei Xin, Zhihua Xia, Linli Xu,
Abstract要約: ベクトル量子化(VQ)は教師なし学習における連続表現の離散化に不可欠である。 VQは表現の崩壊に悩まされ、コードブックの利用率が低下し、スケーラビリティが制限される。遅延ベースで学習可能な線形変換層を通じてコードベクトルを再パラメータ化する textbfSimpletextbfVQ を提案する。
参考スコア（独自算出の注目度）: 13.224989803114632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vector Quantization (VQ) is essential for discretizing continuous representations in unsupervised learning but suffers from representation collapse, causing low codebook utilization and limiting scalability. Existing solutions often rely on complex optimizations or reduce latent dimensionality, which compromises model capacity and fails to fully solve the problem. We identify the root cause as disjoint codebook optimization, where only a few code vectors are updated via gradient descent. To fix this, we propose \textbf{Sim}ple\textbf{VQ}, which reparameterizes code vectors through a learnable linear transformation layer over a latent basis, optimizing the \textit{entire linear space} rather than nearest \textit{individual code vectors}. Although the multiplication of two linear matrices is equivalent to applying a single linear layer, this simple approach effectively prevents collapse. Extensive experiments on image and audio tasks demonstrate that SimVQ improves codebook usage, is easy to implement, and generalizes well across modalities and architectures.
Abstract（参考訳）: ベクトル量子化(VQ)は教師なし学習における連続表現の識別には不可欠だが、表現の崩壊に悩まされ、コードブックの利用が低下しスケーラビリティが制限される。既存のソリューションは、しばしば複雑な最適化や遅延次元の削減に依存し、モデル容量を妥協し、問題の完全な解決に失敗する。根本原因を不整合コードブック最適化として認識し,勾配降下によるコードベクトルの更新を行う。これを解決するために,学習可能な線形変換層を通じてコードベクトルを再パラメータ化する \textbf{Sim}ple\textbf{VQ} を提案し,最も近い \textit{individual code vectors} ではなく, \textit{entire linear space} を最適化する。 2つの線形行列の乗算は1つの線形層を適用することと等価であるが、この単純なアプローチは崩壊を効果的に防止する。画像およびオーディオタスクに関する大規模な実験は、SimVQがコードブックの使用を改善し、実装が容易で、モダリティやアーキテクチャにわたってうまく一般化していることを示している。

関連論文リスト

Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization [12.305907179979426]
エンコーダがドリフトすると、未選択のコードベクトルは更新を受け取れなくなり、徐々に非アクティブになる。そこで我々は,NSVQ(Non-Stationary Vector Quantization)とTransformer-based Vector Quantization(TransVQ)の2つの新しい手法を提案する。 CelebA-HQデータセットの実験では、どちらの手法もほぼ完全なコードブックの利用と再現性の向上を実現している。
論文参考訳（メタデータ） (2026-02-21T16:36:50Z)
Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文参考訳（メタデータ） (2025-10-23T20:19:48Z)
Pushing Toward the Simplex Vertices: A Simple Remedy for Code Collapse in Smoothed Vector Quantization [0.35534933448684125]
ベクトル量子化は連続ベクトル空間を有限な代表ベクトルの集合(コードブック)に離散化する滑らかなベクトル量子化は、コードブックベクトルのハードな割り当てを、コードブックエントリの重み付けの組み合わせに緩和することでこの問題に対処する。離散画像の自動符号化やコントラスト音声表現学習を含む代表的ベンチマーク実験により,提案手法がより信頼性の高いコードブック利用を実現することを示す。
論文参考訳（メタデータ） (2025-09-26T10:17:42Z)
Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。 IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文参考訳（メタデータ） (2024-12-03T18:59:10Z)
Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文参考訳（メタデータ） (2024-12-01T19:32:04Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling [3.9426000822656224]
より潜在的な空間はより表現力が高く、ベクトル量子化アプローチよりも表現性がよいことを示す。以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
論文参考訳（メタデータ） (2024-09-16T08:20:58Z)
Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。 CBMには、さらなる概念のセットが必要である。 CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文参考訳（メタデータ） (2024-04-04T09:43:43Z)
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文参考訳（メタデータ） (2024-03-18T03:17:08Z)
LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。 LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。 VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文参考訳（メタデータ） (2023-10-13T20:03:18Z)
Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。 SCQは微分凸最適化(DCO)層のように機能する。 CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文参考訳（メタデータ） (2023-10-04T17:45:14Z)
Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文参考訳（メタデータ） (2023-07-27T18:31:04Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)
Straightening Out the Straight-Through Estimator: Overcoming Optimization Challenges in Vector Quantized Networks [35.6604960300194]
本研究は,ベクトル量子化を用いたニューラルネットワークのストレートスルー推定による学習課題について検討する。トレーニング不安定の主な原因は,モデル埋め込みとコードベクトル分布の相違である。この問題に寄与する要因として,コードブックの勾配幅やコミットメント損失の非対称性などを挙げる。
論文参考訳（メタデータ） (2023-05-15T17:56:36Z)
SC-VAE: Sparse Coding-based Variational Autoencoder with Learned ISTA [0.6770292596301478]
そこで本研究では,ISTA (SC-VAE) を用いたスパース符号化に基づくVAEを新たに導入し,スパース符号化を可変オートエンコーダフレームワークに統合する。 2つの画像データセットに対する実験により、我々のモデルは、最先端の手法と比較して、画像再構成結果の改善を実現していることが示された。
論文参考訳（メタデータ） (2023-03-29T13:18:33Z)
Nonsmooth automatic differentiation: a cheap gradient principle and other complexity results [0.0]
我々は,多種多様な非滑らかなプログラムに対して,アルゴリズム微分の後方モードと前方モードの計算コストを推定するモデルを提供する。有名な例として、有名なreluと畳み込みニューラルネットワークとその標準損失関数がある。
論文参考訳（メタデータ） (2022-06-01T08:43:35Z)
Smooth over-parameterized solvers for non-smooth structured optimization [3.756550107432323]
非滑らか性 (non-smoothness) は、空間性、群空間性、低ランクエッジ、鋭いエッジなどの解の構造的制約を符号化する。我々は、基礎となる非滑らかな最適化問題の非重み付きだが滑らかな過度パラメータ化を運用する。我々の主な貢献は変数の一部を明示的に最小化することで新しい定式化を定義する変数射影(VarPro)を適用することです。
論文参考訳（メタデータ） (2022-05-03T09:23:07Z)
High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文参考訳（メタデータ） (2022-02-25T16:35:26Z)
Implicit SVD for Graph Representation Learning [33.761179632722]
控えめなハードウェアを持つ人には、グラフ表現学習をより計算的に学習しやすいものにします。我々はSOTAモデルの線形近似を導出し、入出力を計算せずに$mathbfM$のSVDを介して閉形式でモデルを訓練する。我々のモデルは、様々なグラフ上での競合実証試験性能を示す。
論文参考訳（メタデータ） (2021-11-11T16:58:17Z)
Coordinate Linear Variance Reduction for Generalized Linear Programming [27.365677554732304]
この問題における線形構造は、効率的でスケーラブルな1次アルゴリズムの設計に利用できることを示す。 textscclvr はスペクトルノルムではなく、線形制約行列 (GLP) の最大行ノルムに依存する(GLP) に対して、より複雑な結果をもたらす。
論文参考訳（メタデータ） (2021-11-02T18:57:23Z)
Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文参考訳（メタデータ） (2021-09-10T07:01:15Z)
Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。 CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文参考訳（メタデータ） (2021-06-20T04:28:20Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Learning to Encode Position for Transformer with Continuous Dynamical Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文参考訳（メタデータ） (2020-03-13T00:41:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。