論文の概要: MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization
- arxiv url: http://arxiv.org/abs/2507.07997v1
- Date: Thu, 10 Jul 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.543147
- Title: MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization
- Title(参考訳): MGVQ:VQ-VAEはVAEに勝るのか?
- Authors: Mingkai Jia, Wei Yin, Xiaotao Hu, Jiaxin Guo, Xiaoyang Guo, Qian Zhang, Xiao-Xiao Long, Ping Tan,
- Abstract要約: 離散コードブックの表現能力を向上する新しい手法であるNickNameを提案する。
512pと2kの解像度を特徴とする総合ゼロショットベンチマークを構築し,既存手法の復元性能を厳格に評価する。
結果は、NickNamein再構成の優位性を強調し、HD画像処理タスクにおける忠実性を維持するための道を開く。
- 参考スコア(独自算出の注目度): 35.57897644198773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector Quantized Variational Autoencoders (VQ-VAEs) are fundamental models that compress continuous visual data into discrete tokens. Existing methods have tried to improve the quantization strategy for better reconstruction quality, however, there still exists a large gap between VQ-VAEs and VAEs. To narrow this gap, we propose \NickName, a novel method to augment the representation capability of discrete codebooks, facilitating easier optimization for codebooks and minimizing information loss, thereby enhancing reconstruction quality. Specifically, we propose to retain the latent dimension to preserve encoded features and incorporate a set of sub-codebooks for quantization. Furthermore, we construct comprehensive zero-shot benchmarks featuring resolutions of 512p and 2k to evaluate the reconstruction performance of existing methods rigorously. \NickName~achieves the \textbf{state-of-the-art performance on both ImageNet and $8$ zero-shot benchmarks} across all VQ-VAEs. Notably, compared with SD-VAE, we outperform them on ImageNet significantly, with rFID $\textbf{0.49}$ v.s. $\textbf{0.91}$, and achieve superior PSNR on all zero-shot benchmarks. These results highlight the superiority of \NickName~in reconstruction and pave the way for preserving fidelity in HD image processing tasks. Code will be publicly available at https://github.com/MKJia/MGVQ.
- Abstract(参考訳): Vector Quantized Variational Autoencoders (VQ-VAE) は、連続した視覚データを離散トークンに圧縮する基本モデルである。
既存手法では, 再現性向上のための量子化戦略の改善が試みられているが, VQ-VAEとVAEの間には大きなギャップがある。
このギャップを狭めるために、離散コードブックの表現能力を向上する新しい方法である \NickName を提案し、コードブックの最適化を容易にし、情報損失を最小限に抑え、再構築品質を向上する。
具体的には,符号化された特徴を保存するために潜在次元を保ち,量子化のためのサブコードブックを組み込むことを提案する。
さらに, 512p と 2k の分解能を有する総合ゼロショットベンチマークを構築し, 既存手法の復元性能を厳格に評価する。
NickName~achieves the \textbf{state-of-the-art performance on ImageNet and 8,$ zero-shot benchmarks} on all VQ-VAEs。
特に、SD-VAEと比較して、ImageNetでは、rFID $\textbf{0.49}$ v.s. $\textbf{0.91}$で、より優れたPSNRをすべてのゼロショットベンチマークで達成している。
これらの結果は,再構成における \NickName~in の優位性を強調し,HD画像処理タスクにおける忠実性を維持するための道を開く。
コードはhttps://github.com/MKJia/MGVQ.comで公開される。
関連論文リスト
- CODA: Repurposing Continuous VAEs for Discrete Tokenization [52.58960429582813]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - VQFR: Blind Face Restoration with Vector-Quantized Dictionary and
Parallel Decoder [83.63843671885716]
本稿では,VQFRを用いた顔復元手法を提案する。
VQFRは高品質な顔から抽出された高品質の低レベル特徴バンクを利用する。
VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルな特徴をさらに融合させるため、並列デコーダを提案する。
論文 参考訳(メタデータ) (2022-05-13T17:54:40Z) - Hierarchical Quantized Autoencoders [3.9146761527401432]
本稿では,Vector Quantized Variencoders (VQ-VAEs) の階層構造を用いて,高い圧縮係数を求める。
量子化と階層的潜在構造の組み合わせは、確率に基づく画像圧縮に役立つことを示す。
得られたスキームは、高い知覚品質の画像を再構成するマルコフ変数の列を生成する。
論文 参考訳(メタデータ) (2020-02-19T11:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。