論文の概要: Is Hierarchical Quantization Essential for Optimal Reconstruction?
- arxiv url: http://arxiv.org/abs/2601.22244v1
- Date: Thu, 29 Jan 2026 19:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.018938
- Title: Is Hierarchical Quantization Essential for Optimal Reconstruction?
- Title(参考訳): 階層的量子化は最適再構成に必須か?
- Authors: Shirin Reyhanian, Laurenz Wiskott,
- Abstract要約: コードブックの利用が不十分な場合,単一レベルのVQ-VAEが制限され,高次元の埋め込みによって量子化が不安定になり,コードブックの崩壊が増加することを示す。
その結果,表象予算が一致し,コードブックの崩壊が緩和された場合,単一レベルVQ-VAEは階層的変動の再構成忠実度に適合することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector-quantized variational autoencoders (VQ-VAEs) are central to models that rely on high reconstruction fidelity, from neural compression to generative pipelines. Hierarchical extensions, such as VQ-VAE2, are often credited with superior reconstruction performance because they split global and local features across multiple levels. However, since higher levels derive all their information from lower levels, they should not carry additional reconstructive content beyond what the lower-level already encodes. Combined with recent advances in training objectives and quantization mechanisms, this leads us to ask whether a single-level VQ-VAE, with matched representational budget and no codebook collapse, can equal the reconstruction fidelity of its hierarchical counterpart. Although the multi-scale structure of hierarchical models may improve perceptual quality in downstream tasks, the effect of hierarchy on reconstruction accuracy, isolated from codebook utilization and overall representational capacity, remains empirically underexamined. We revisit this question by comparing a two-level VQ-VAE and a capacity-matched single-level model on high-resolution ImageNet images. Consistent with prior observations, we confirm that inadequate codebook utilization limits single-level VQ-VAEs and that overly high-dimensional embeddings destabilize quantization and increase codebook collapse. We show that lightweight interventions such as initialization from data, periodic reset of inactive codebook vectors, and systematic tuning of codebook hyperparameters significantly reduce collapse. Our results demonstrate that when representational budgets are matched, and codebook collapse is mitigated, single-level VQ-VAEs can match the reconstruction fidelity of hierarchical variants, challenging the assumption that hierarchical quantization is inherently superior for high-quality reconstructions.
- Abstract(参考訳): ベクトル量子化変分オートエンコーダ(VQ-VAE)は、ニューラル圧縮から生成パイプラインに至るまで、高い再構成忠実度に依存するモデルの中心である。
VQ-VAE2のような階層的拡張は、グローバルな特徴とローカルな特徴を複数のレベルに分けたため、しばしば優れた再構成性能が評価される。
しかし、上位レベルは、すべての情報を下位レベルから導き出すので、下位レベルが既にエンコードしている以上の、追加の再構成コンテンツを運ぶべきではない。
近年の学習目標と量子化機構の進歩と相まって、単一のレベルのVQ-VAEが、表現予算に一致し、コードブックの崩壊がない場合、その階層的手法の再構築忠実度に等しいかどうかを問うことができる。
階層型モデルのマルチスケール構造は下流タスクの知覚品質を向上させる可能性があるが、コードブックの利用と全体的な表現能力から分離された再構成精度に対する階層構造の影響は、実証的に過小評価されている。
本稿では,高解像度画像上での2レベルVQ-VAEとキャパシティマッチング単一レベルモデルを比較することで,この問題を再考する。
先行観測と一致して,コードブックの利用が不十分な場合,単一レベルのVQ-VAEが制限され,高次元埋め込みによって量子化が不安定になり,コードブックの崩壊が増加することが確認された。
我々は,データの初期化,不活性なコードブックベクトルの周期的リセット,コードブックハイパーパラメータの体系的チューニングなどの軽量な介入が,崩壊を著しく減少させることを示す。
本研究は, 表現的予算が一致し, コードブックの崩壊が緩和された場合, 単一レベルVQ-VAEは階層的変動の再構成忠実度と一致し, 階層的量子化が本質的に高品質な再構成に優れているという仮定に挑戦することを示した。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization [60.294965457786844]
ベクトル量子化(VQ)は、画像生成のための離散トークン化器において重要な要素である。
VQBridgeは、地図関数法に基づく堅牢でスケーラブルで効率的なプロジェクタである。
FVQは262kのコードブックでも100%のコードブック利用が可能である。
論文 参考訳(メタデータ) (2025-09-12T11:08:21Z) - Hyperbolic Residual Quantization: Discrete Representations for Data with Latent Hierarchies [48.72319569157807]
残留量子化(Residual Quantization, RQ)は階層データに対する離散的マルチトークン表現を生成するために広く用いられている。
本稿では,双曲多様体にデータを埋め込むハイパーボリック残留量子化(HRQ)を提案する。
HRQは、自然に階層的な分岐と整合する帰納的バイアスを与える。
論文 参考訳(メタデータ) (2025-05-18T13:14:07Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes [18.57499609338579]
本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。
HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する
画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
論文 参考訳(メタデータ) (2023-12-31T01:39:38Z) - Hierarchical Residual Learning Based Vector Quantized Variational
Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。
画像再構成と生成のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-08-09T06:04:25Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。