論文の概要: Generalized Radius and Integrated Codebook Transforms for Differentiable Vector Quantization
- arxiv url: http://arxiv.org/abs/2602.01140v1
- Date: Sun, 01 Feb 2026 10:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.621777
- Title: Generalized Radius and Integrated Codebook Transforms for Differentiable Vector Quantization
- Title(参考訳): 微分ベクトル量子化のための一般化ラディウスと統合コードブック変換
- Authors: Haochen You, Heng Zhang, Hongyang He, Yuqi Li, Baojing Liu,
- Abstract要約: 我々は、VQを完全に差別化しつつ、前方パスにハードアサインを保持する統一的なサロゲートフレームワークを導入する。
GRIT-VQは、既存のVQの変種と比較して、復元誤差、生成品質、精度を一貫して改善する。
- 参考スコア(独自算出の注目度): 11.898954874548073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector quantization (VQ) underpins modern generative and representation models by turning continuous latents into discrete tokens. Yet hard nearest-neighbor assignments are non-differentiable and are typically optimized with heuristic straight-through estimators, which couple the update step size to the quantization gap and train each code in isolation, leading to unstable gradients and severe codebook under-utilization at scale. In this paper, we introduce GRIT-VQ (Generalized Radius and Integrated Transform-Vector Quantization), a unified surrogate framework that keeps hard assignments in the forward pass while making VQ fully differentiable. GRIT-VQ replaces the straight-through estimator with a radius-based update that moves latents along the quantization direction with a controllable, geometry-aware step, and applies a data-agnostic integrated transform to the codebook so that all codes are updated through shared parameters instead of independently. Our theoretical analysis clarifies the fundamental optimization dynamics introduced by GRIT-VQ, establishing conditions for stable gradient flow, coordinated codebook evolution, and reliable avoidance of collapse across a broad family of quantizers. Across image reconstruction, image generation, and recommendation tokenization benchmarks, GRIT-VQ consistently improves reconstruction error, generative quality, and recommendation accuracy while substantially increasing codebook utilization compared to existing VQ variants.
- Abstract(参考訳): ベクトル量子化(VQ)は、連続ラテントを離散トークンに変換することによって、現代的な生成モデルと表現モデルを支える。
しかし、最寄りのハードな割り当ては非微分可能であり、典型的にはヒューリスティックなストレートスルー推定器で最適化されている。
本稿では,VQを完全に差別化しつつ,前方パスにハード割り当てを保持する統一サロゲートフレームワークであるGRIT-VQ(Generalized Radius and Integrated Transform-Vector Quantization)を紹介する。
GRIT-VQは、ストレートスルー推定器を半径ベースの更新装置に置き換え、量子化方向に沿ってラテントを制御可能で幾何認識のステップで移動させ、データに依存しない統合変換をコードブックに適用し、全てのコードを独立してパラメータを共有せずに更新する。
我々の理論解析は、GRIT-VQが導入した基本最適化のダイナミクスを明らかにし、安定な勾配流、コーデックブックの進化、および幅広い量子化器群における崩壊の確実な回避条件を確立する。
画像再構成、画像生成、レコメンデーショントークン化ベンチマーク全体において、GRIT-VQは、既存のVQよりもコードブックの利用を著しく増加させながら、再構成エラー、生成品質、レコメンデーション精度を一貫して改善する。
関連論文リスト
- Is Hierarchical Quantization Essential for Optimal Reconstruction? [0.0]
コードブックの利用が不十分な場合,単一レベルのVQ-VAEが制限され,高次元の埋め込みによって量子化が不安定になり,コードブックの崩壊が増加することを示す。
その結果,表象予算が一致し,コードブックの崩壊が緩和された場合,単一レベルVQ-VAEは階層的変動の再構成忠実度に適合することを示した。
論文 参考訳(メタデータ) (2026-01-29T19:09:50Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - VAEVQ: Enhancing Discrete Visual Tokenization through Variational Modeling [22.005420177236804]
VAEVQは,(1)変分潜時量子化(VLQ),AEを量子化用VOEに置き換えて構造的かつスムーズな潜時空間を活用し,より効率的なコーデックアクティベーションを促進する,(2)表現コヒーレンス戦略(RCS),(2)先行および後列化特徴間のアライメント強度を適応的に調整して整合性を高め,ノイズへの過度適合を防止する,(3)分布整合性正規化(DCR),といった3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-11-10T09:07:23Z) - Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization [60.294965457786844]
ベクトル量子化(VQ)は、画像生成のための離散トークン化器において重要な要素である。
VQBridgeは、地図関数法に基づく堅牢でスケーラブルで効率的なプロジェクタである。
FVQは262kのコードブックでも100%のコードブック利用が可能である。
論文 参考訳(メタデータ) (2025-09-12T11:08:21Z) - Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior [5.862123282894087]
ベクトル量子化変分オートエンコーダ(VQ-VAE)を導入する。
VQ-VAEは、離散埋め込みを潜時として使用する変分オートエンコーダの一種である。
GM-VQは,手工芸品に頼らずに,コードブックの利用率を向上し,情報損失を低減する。
論文 参考訳(メタデータ) (2024-10-14T05:58:11Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes [18.57499609338579]
本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。
HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する
画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
論文 参考訳(メタデータ) (2023-12-31T01:39:38Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。