論文の概要: Continuous First, Discrete Later: VQ-VAEs Without Dimensional Collapse
- arxiv url: http://arxiv.org/abs/2605.06870v2
- Date: Tue, 12 May 2026 01:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.817082
- Title: Continuous First, Discrete Later: VQ-VAEs Without Dimensional Collapse
- Title(参考訳): 連続第一、離散後:VQ-VAEsは次元的に崩壊しない
- Authors: Xinyu Zhao, Nikita Karagodin, Hamed Hassani, Sinan Hersek, Paul Pu Liang, Yury Polyanskiy,
- Abstract要約: 我々は、次元の崩壊が様々なコードブック改善技術が上回らないようなハードロスの低い境界を生じることを理論的かつ実証的に示す。
本稿では,VQを導入する前に,不適切な自動エンコーダとしてモデルを訓練する「ウォームアップフェーズ」を提案する。
合成実験と大規模画像 (VQGAN) とオーディオ (WavTokenizer) VQ-VAEs の両方において, AE Warm-Up が表現次元の復元に成功したことを示す。
- 参考スコア(独自算出の注目度): 63.31488859236551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many approaches to improve VQ-VAE performance focus on codebook size and utilization, the effect of dimensional collapse, where trained VQ-VAE representations live in an extremely low-dimensional subspace (1-2% of full rank), remains unaddressed. We show theoretically and empirically that dimension collapse causes a hard loss lower bound that various codebook improvement techniques fail to surpass. Our analytic framework extends the sequential learning effect of Saxe et al. [2014] by introducing ideas from rate-distortion theory and explains how the latent collapse is caused by the VQ suppressing lower-variance directions. Our theory justifies a simple solution: a "warm-up phase" that trains the model as an (unquantized) autoencoder before introducing VQ. On both synthetic experiments and large-scale image (VQGAN) and audio (WavTokenizer) VQ-VAEs, we show that AE Warm-Up successfully restores representation dimension, leading to lower reconstruction and perceptual loss at the same training budget. Across codebook sizes $K \in$ {$2^{10}, 2^{14}, 2^{16}$}, AE warm-up raises VQGAN codebook effective dimension from 3-5 to 17-19 and reduces rFID by 17-35%; on WavTokenizer at $K \in$ {$2^{13}, 2^{14}$}, it raises codebook dimension from 4 to 17-19 and improves PESQ by 11-14%. We empirically characterize how warm-up duration governs the achievable final loss. In agreement with experiment, our theoretical analysis predicts downstream performance as a function of warm-up length, enabling an adaptive criterion for switching from AE Warm-up to VQ-VAE training.
- Abstract(参考訳): VQ-VAE性能を改善するための多くのアプローチは、コードブックのサイズと利用に焦点を当てているが、訓練されたVQ-VAE表現が極低次元の部分空間(フルランクの1-2%)に居住する場合の次元崩壊の影響は、いまだに未解決のままである。
我々は、次元の崩壊が様々なコードブック改善技術が上回らないようなハードロスの低い境界を生じることを理論的かつ実証的に示す。
我々の分析フレームワークは、速度歪み理論からアイデアを導入し、Saxe et al [2014] の逐次学習効果を拡張し、低分散方向を抑制する VQ による潜伏崩壊がどのように引き起こされるかを説明する。
我々の理論は、VQを導入する前にモデルを(不適切な)オートエンコーダとして訓練する「ウォームアップフェーズ」という単純な解を正当化する。
合成実験と大規模画像 (VQGAN) とオーディオ (WavTokenizer) VQ-VAEs の両方において, AE Warm-Up が表現次元の復元に成功し, 再現率と知覚損失が同じトレーニング予算で低下することを示した。
コードブックサイズ$K \in$ {$2^{10}, 2^{14}, 2^{16}$}, AE warm-up raises VQGAN codebook effective dimension to 3-5 to 17-19 and reduces rFID by 17-35%; on WavTokenizer at $K \in$ {$2^{13}, 2^{14}$}, it raises codebook dimension from 4 to 17-19, and improves PESQ by 11-14%。
達成可能な最終損失を、ウォームアップ期間がいかに支配するかを実証的に特徴づける。
実験結果と一致して, 暖房長関数として下流性能を予測し, AEウォームアップからVQ-VAEトレーニングへの適応基準を実現する。
関連論文リスト
- Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression [53.041405703471895]
低ビットレート画像圧縮のためのエンドツーエンドRD最適化を実現する統一フレームワークRDVQを提案する。
我々は,正確なエントロピーモデリングとテスト時間率制御をサポートする自己回帰エントロピーモデルを開発した。
RD2K-valと比較すると、RDVQは DisTSで75.71%、DIV2K-valでLPIPSで37.63%減少する。
論文 参考訳(メタデータ) (2026-04-12T09:25:24Z) - Mitigating Premature Discretization with Progressive Quantization for Robust Vector Tokenization [17.805458929887894]
本稿では,VQトレーニングにおいて,量子化硬度の力学を基本的かつ以前は見過ごされていた軸として組み込んだプログレッシブ量子化(ProVQ)を提案する。
本稿では,ImageNet-1KとImageNet-100ベンチマークの再構築と生成性能の改善について報告する。
ProVQは複雑な生物学的配列をモデル化し、StrutTokenBenchのリーダーボード上でタンパク質構造のトークン化のための新しいパフォーマンス天井を確立するのに非常に効果的である。
論文 参考訳(メタデータ) (2026-03-17T18:03:09Z) - Sat-EnQ: Satisficing Ensembles of Weak Q-Learners for Reliable and Compute-Efficient Reinforcement Learning [0.0]
Sat-EnQは、アグレッシブに最適化する前に、十分に良いことを学習するフレームワークです。
フェーズ1では、初期価値成長を制限する満足度の高い目標の下で、軽量Qネットワークのアンサンブルをトレーニングします。
フェーズ2では、アンサンブルはより大きなネットワークに蒸留され、標準のダブルDQNで微調整される。
論文 参考訳(メタデータ) (2025-12-28T12:41:09Z) - Quantize-then-Rectify: Efficient VQ-VAE Training [71.92014859992263]
この研究は、VAEの許容しきい値内の量子化ノイズによって、事前訓練されたVAEをVQ-VAEに効率的に変換できることを実証する。
我々は、事前学習されたVAEを利用して、最小計算オーバーヘッドで高速なVQ-VAEトレーニングを可能にするフレームワークである textbfQuantize-then-Rectify (ReVQ) を提案する。
論文 参考訳(メタデータ) (2025-07-14T17:59:41Z) - Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - Rethinking the Objectives of Vector-Quantized Tokenizers for Image
Synthesis [30.654501418221475]
本稿では,VQトークン化器の再構成精度の向上が,生成変換器の生成能力の向上に必ずしも寄与しないことを示す。
本稿では,2つの学習フェーズを持つセマンティック・量子化GAN (Semantic-Quantized GAN) を提案する。
我々のSeQ-GAN(364M)は6.25のFrechet Inception Distance(FID)と256x256 ImageNet生成の140.9のInception Score(IS)を達成する。
論文 参考訳(メタデータ) (2022-12-06T17:58:38Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。