論文の概要: MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization
- arxiv url: http://arxiv.org/abs/2507.07997v1
- Date: Thu, 10 Jul 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.543147
- Title: MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization
- Title(参考訳): MGVQ:VQ-VAEはVAEに勝るのか?
- Authors: Mingkai Jia, Wei Yin, Xiaotao Hu, Jiaxin Guo, Xiaoyang Guo, Qian Zhang, Xiao-Xiao Long, Ping Tan,
- Abstract要約: 離散コードブックの表現能力を向上する新しい手法であるNickNameを提案する。
512pと2kの解像度を特徴とする総合ゼロショットベンチマークを構築し,既存手法の復元性能を厳格に評価する。
結果は、NickNamein再構成の優位性を強調し、HD画像処理タスクにおける忠実性を維持するための道を開く。
- 参考スコア(独自算出の注目度): 35.57897644198773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector Quantized Variational Autoencoders (VQ-VAEs) are fundamental models that compress continuous visual data into discrete tokens. Existing methods have tried to improve the quantization strategy for better reconstruction quality, however, there still exists a large gap between VQ-VAEs and VAEs. To narrow this gap, we propose \NickName, a novel method to augment the representation capability of discrete codebooks, facilitating easier optimization for codebooks and minimizing information loss, thereby enhancing reconstruction quality. Specifically, we propose to retain the latent dimension to preserve encoded features and incorporate a set of sub-codebooks for quantization. Furthermore, we construct comprehensive zero-shot benchmarks featuring resolutions of 512p and 2k to evaluate the reconstruction performance of existing methods rigorously. \NickName~achieves the \textbf{state-of-the-art performance on both ImageNet and $8$ zero-shot benchmarks} across all VQ-VAEs. Notably, compared with SD-VAE, we outperform them on ImageNet significantly, with rFID $\textbf{0.49}$ v.s. $\textbf{0.91}$, and achieve superior PSNR on all zero-shot benchmarks. These results highlight the superiority of \NickName~in reconstruction and pave the way for preserving fidelity in HD image processing tasks. Code will be publicly available at https://github.com/MKJia/MGVQ.
- Abstract(参考訳): Vector Quantized Variational Autoencoders (VQ-VAE) は、連続した視覚データを離散トークンに圧縮する基本モデルである。
既存手法では, 再現性向上のための量子化戦略の改善が試みられているが, VQ-VAEとVAEの間には大きなギャップがある。
このギャップを狭めるために、離散コードブックの表現能力を向上する新しい方法である \NickName を提案し、コードブックの最適化を容易にし、情報損失を最小限に抑え、再構築品質を向上する。
具体的には,符号化された特徴を保存するために潜在次元を保ち,量子化のためのサブコードブックを組み込むことを提案する。
さらに, 512p と 2k の分解能を有する総合ゼロショットベンチマークを構築し, 既存手法の復元性能を厳格に評価する。
NickName~achieves the \textbf{state-of-the-art performance on ImageNet and 8,$ zero-shot benchmarks} on all VQ-VAEs。
特に、SD-VAEと比較して、ImageNetでは、rFID $\textbf{0.49}$ v.s. $\textbf{0.91}$で、より優れたPSNRをすべてのゼロショットベンチマークで達成している。
これらの結果は,再構成における \NickName~in の優位性を強調し,HD画像処理タスクにおける忠実性を維持するための道を開く。
コードはhttps://github.com/MKJia/MGVQ.comで公開される。
関連論文リスト
- Quantize-then-Rectify: Efficient VQ-VAE Training [71.92014859992263]
この研究は、VAEの許容しきい値内の量子化ノイズによって、事前訓練されたVAEをVQ-VAEに効率的に変換できることを実証する。
我々は、事前学習されたVAEを利用して、最小計算オーバーヘッドで高速なVQ-VAEトレーニングを可能にするフレームワークである textbfQuantize-then-Rectify (ReVQ) を提案する。
論文 参考訳(メタデータ) (2025-07-14T17:59:41Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [52.58960429582813]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - Dual Codebook VQ: Enhanced Image Reconstruction with Reduced Codebook Size [0.0]
ベクトル量子化(VQ)技術は、コードブック利用における課題に直面し、画像モデリングにおける再構成忠実度を制限する。
本稿では,表現を補完的なグローバルコンポーネントとローカルコンポーネントに分割することで,この制限を効果的に解決するDual Codebookメカニズムを提案する。
提案手法は,様々な画像領域,特にシーンや顔の再構成作業において優れたFID改善を実現する。
論文 参考訳(メタデータ) (2025-03-13T19:31:18Z) - Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation [54.2574228021317]
XQ-GANは画像再構成と生成の両方のために設計された画像トークン化フレームワークである。
我々のフレームワークは、ベクトル量子化(VQ)、残留量子化(RQ)、マルチスケール残留量子化(MSVQ)、製品量子化(PQ)、バイナリ球面量子化(BSQ)など、最先端の量子化技術を統合する。
標準の ImageNet 256x256 ベンチマークでは,本モデルが MAGVIT-v2 (0.9 rFID) と VAR (0.9 rFID) を大幅に上回り,0.64 の rFID を達成した。
論文 参考訳(メタデータ) (2024-12-02T17:58:06Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes [18.57499609338579]
本稿では,階層的量子化変分オートエンコーダ(HQ-VAE)と呼ばれる,変分ベイズフレームワークに基づく階層的離散表現学習フレームワークを提案する。
HQ-VAEはVQ-VAE-2や残留量子化VAE(RQ-VAE)のようなVQ-VAEの階層的変種を自然に一般化する
画像データセットに関する総合的な実験により、HQ-VAEはコードブックの使用率を高め、再構築性能を向上させることが示された。
論文 参考訳(メタデータ) (2023-12-31T01:39:38Z) - VQFR: Blind Face Restoration with Vector-Quantized Dictionary and
Parallel Decoder [83.63843671885716]
本稿では,VQFRを用いた顔復元手法を提案する。
VQFRは高品質な顔から抽出された高品質の低レベル特徴バンクを利用する。
VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルな特徴をさらに融合させるため、並列デコーダを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:54:40Z) - Autoregressive Image Generation using Residual Quantization [40.04085054791994]
本稿では,高解像度画像を生成するための2段階のフレームワークを提案する。
フレームワークはResidual-Quantized VAE (RQ-VAE)とRQ-Transformerで構成されている。
提案手法は,高画質画像を生成するために,従来のARモデルよりもはるかに高速なサンプリング速度を有する。
論文 参考訳(メタデータ) (2022-03-03T11:44:46Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。