論文の概要: VP-VAE: Rethinking Vector Quantization via Adaptive Vector Perturbation
- arxiv url: http://arxiv.org/abs/2602.17133v1
- Date: Thu, 19 Feb 2026 07:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.801985
- Title: VP-VAE: Rethinking Vector Quantization via Adaptive Vector Perturbation
- Title(参考訳): VP-VAE:適応ベクトル摂動によるベクトル量子化の再考
- Authors: Linwei Zhai, Han Ding, Mingzhi Lin, Cui Zhao, Fei Wang, Ge Wang, Wang Zhi, Wei Xi,
- Abstract要約: ベクトル量子変分オートエンコーダ(VQ-VAE)は現代の生成モデルの基礎であるが、しばしばトレーニング不安定性と「コードブック崩壊」に悩まされる。
本稿では,学習中に明示的なコードブックを不要にすることで,表現学習を識別から切り離す新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 16.334397444253266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector Quantized Variational Autoencoders (VQ-VAEs) are fundamental to modern generative modeling, yet they often suffer from training instability and "codebook collapse" due to the inherent coupling of representation learning and discrete codebook optimization. In this paper, we propose VP-VAE (Vector Perturbation VAE), a novel paradigm that decouples representation learning from discretization by eliminating the need for an explicit codebook during training. Our key insight is that, from the neural network's viewpoint, performing quantization primarily manifests as injecting a structured perturbation in latent space. Accordingly, VP-VAE replaces the non-differentiable quantizer with distribution-consistent and scale-adaptive latent perturbations generated via Metropolis--Hastings sampling. This design enables stable training without a codebook while making the model robust to inference-time quantization error. Moreover, under the assumption of approximately uniform latent variables, we derive FSP (Finite Scalar Perturbation), a lightweight variant of VP-VAE that provides a unified theoretical explanation and a practical improvement for FSQ-style fixed quantizers. Extensive experiments on image and audio benchmarks demonstrate that VP-VAE and FSP improve reconstruction fidelity and achieve substantially more balanced token usage, while avoiding the instability inherent to coupled codebook training.
- Abstract(参考訳): ベクトル量子化変分オートコーダ(VQ-VAE)は、現代の生成モデルの基本であるが、表現学習と離散コードブック最適化の固有の結合により、トレーニング不安定性と「コードブック崩壊」に悩まされることが多い。
本稿では、学習中に明示的なコードブックを不要にすることで、表現学習を離散化から切り離す新しいパラダイムであるVP-VAE(Vector Perturbation VAE)を提案する。
私たちの重要な洞察は、ニューラルネットワークの観点からは、量子化の実行は、主に潜在空間における構造的摂動を注入することとして現れます。
このため、VP-VAEは微分不可能な量子化器をメトロポリス-ハスティングスサンプリングによって生成される分布一貫性とスケール適応性潜在摂動に置き換える。
この設計は、モデルを推論時量子化エラーに対して堅牢にしながら、コードブックなしで安定したトレーニングを可能にする。
さらに, ほぼ均一な潜伏変数を仮定して, FSQ型固定量子化器の統一的理論的説明と実用的改善を提供するVP-VAEの軽量な変種であるFSP(Finite Scalar Perturbation)を導出する。
画像と音声のベンチマークに関する大規模な実験により、VP-VAEとFSPは、結合されたコードブックのトレーニングに固有の不安定さを避けながら、再構築の忠実さを改善し、よりバランスの取れたトークンの使用率を著しく向上することを示した。
関連論文リスト
- VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training [53.09658039757408]
本稿では,効率的な拡散訓練のための軽量な固有ガイダンスフレームワークである textbfnamex を提案する。
nameは、拡散トランスフォーマーの中間潜時特徴を、軽量なプロジェクション層を介してVAE特徴と整列し、特徴アライメントロスによって教師される。
実験により、バニラ拡散変圧器と比較して、名称が生成品質とトレーニング収束速度の両方を改善することが示された。
論文 参考訳(メタデータ) (2026-01-25T13:22:38Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - How to train your VAE [0.0]
変分オートエンコーダ(VAE)は、機械学習における生成モデリングと表現学習の基盤となっている。
本稿では,ELBO(エビデンス・ロウアー・バウンド)における重要な構成要素であるKLディバージェンス(Kulback-Leibler)の解釈について検討する。
提案手法は, ELBOを後続確率のガウス混合体で再定義し, 正規化項を導入し, テクスチャリアリズムを高めるためにPatchGAN識別器を用いる。
論文 参考訳(メタデータ) (2023-09-22T19:52:28Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed
Stochastic Quantization [13.075574481614478]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の注目すべき問題は、学習された離散表現がコードブックの全容量のごく一部しか使用していないことである。
本稿では,新しい量子化法と量子化法により,標準VAEを拡張した新しいトレーニング手法を提案する。
実験の結果,SQ-VAEはコモンズを使わずにコードブックの利用を改善することがわかった。
論文 参考訳(メタデータ) (2022-05-16T09:49:37Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Robust Training of Vector Quantized Bottleneck Models [21.540133031071438]
ベクトル量子変分自動エンコーダモデル(VQ-VAEs)を用いた離散表現の信頼性と効率的な訓練法を示す。
教師なし表現学習では、変分オートエンコーダ(VAE)のような連続潜伏変数モデルの代替となる。
論文 参考訳(メタデータ) (2020-05-18T08:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。