論文の概要: Quantize-then-Rectify: Efficient VQ-VAE Training
- arxiv url: http://arxiv.org/abs/2507.10547v1
- Date: Mon, 14 Jul 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.670877
- Title: Quantize-then-Rectify: Efficient VQ-VAE Training
- Title(参考訳): 量子then-Rectify:効率的なVQ-VAEトレーニング
- Authors: Borui Zhang, Qihang Rao, Wenzhao Zheng, Jie Zhou, Jiwen Lu,
- Abstract要約: この研究は、VAEの許容しきい値内の量子化ノイズによって、事前訓練されたVAEをVQ-VAEに効率的に変換できることを実証する。
我々は、事前学習されたVAEを利用して、最小計算オーバーヘッドで高速なVQ-VAEトレーニングを可能にするフレームワークである textbfQuantize-then-Rectify (ReVQ) を提案する。
- 参考スコア(独自算出の注目度): 71.92014859992263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tokenizers are pivotal in multimodal large models, acting as bridges between continuous inputs and discrete tokens. Nevertheless, training high-compression-rate VQ-VAEs remains computationally demanding, often necessitating thousands of GPU hours. This work demonstrates that a pre-trained VAE can be efficiently transformed into a VQ-VAE by controlling quantization noise within the VAE's tolerance threshold. We present \textbf{Quantize-then-Rectify (ReVQ)}, a framework leveraging pre-trained VAEs to enable rapid VQ-VAE training with minimal computational overhead. By integrating \textbf{channel multi-group quantization} to enlarge codebook capacity and a \textbf{post rectifier} to mitigate quantization errors, ReVQ compresses ImageNet images into at most 512 tokens while sustaining competitive reconstruction quality (rFID = 1.06). Significantly, ReVQ reduces training costs by over two orders of magnitude relative to state-of-the-art approaches: ReVQ finishes full training on a single NVIDIA 4090 in approximately 22 hours, whereas comparable methods require 4.5 days on 32 A100 GPUs. Experimental results show that ReVQ achieves superior efficiency-reconstruction trade-offs.
- Abstract(参考訳): 視覚トークン化器は、連続的な入力と離散トークンの間のブリッジとして機能するマルチモーダルな大規模モデルにおいて中心的である。
それでも、ハイ圧縮レートのVQ-VAEのトレーニングは計算的に要求され、数千時間のGPU時間を必要とすることが多い。
この研究は、VAEの許容しきい値内の量子化ノイズを制御することにより、事前学習されたVAEをVQ-VAEに効率的に変換できることを実証する。
本稿では、事前学習されたVAEを利用して、計算オーバーヘッドを最小限に抑えた高速なVQ-VAEトレーニングを可能にするフレームワークである、textbf{Quantize-then-Rectify (ReVQ)}を提案する。
コードブック容量を拡大するために \textbf{ channel multi-group Quantization} と \textbf{post rectifier} を統合して量子化エラーを軽減することで、ReVQ は ImageNet 画像を最大 512 個のトークンに圧縮し、競合する再構成品質(rFID = 1.06)を維持する。
ReVQは1つのNVIDIA 4090のフルトレーニングを約22時間で完了しますが、同等の手法では32 A100 GPU上で4.5日以上かかります。
実験結果から,ReVQは優れた効率・再構成トレードオフを実現することが示された。
関連論文リスト
- MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization [35.57897644198773]
本稿では,離散コードブックの表現能力を向上する新しい手法MGVQを提案する。
MGVQはImageNetと8つのゼロショットベンチマークの両方で最先端のパフォーマンスを実現している。
その結果、再構成におけるMGVQの優位性を強調し、HD画像処理タスクにおける忠実性を維持するための道を開いた。
論文 参考訳(メタデータ) (2025-07-10T17:59:54Z) - SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer [45.720721058671856]
SoftVQ-VAEは、ソフトカテゴリ後部を利用して複数のコードワードを各潜在トークンに集約する連続画像トークンである。
提案手法は,32または64個の1次元トークンを用いて256x256および512x512画像を圧縮する。
興味深いことに、SoftVQ-VAEは256x256画像を生成するために最大18倍の推論スループットを向上し、512x512画像に対して55倍である。
論文 参考訳(メタデータ) (2024-12-14T20:29:29Z) - XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation [54.2574228021317]
XQ-GANは画像再構成と生成の両方のために設計された画像トークン化フレームワークである。
我々のフレームワークは、ベクトル量子化(VQ)、残留量子化(RQ)、マルチスケール残留量子化(MSVQ)、製品量子化(PQ)、バイナリ球面量子化(BSQ)など、最先端の量子化技術を統合する。
標準の ImageNet 256x256 ベンチマークでは,本モデルが MAGVIT-v2 (0.9 rFID) と VAR (0.9 rFID) を大幅に上回り,0.64 の rFID を達成した。
論文 参考訳(メタデータ) (2024-12-02T17:58:06Z) - P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - GPTVQ: The Blessing of Dimensionality for LLM Quantization [15.324536807105032]
ニューラルネットワーク量子化のサイズと精度のトレードオフは、量子化次元を増大させることで大幅に改善できることを示す。
GPTVQ法は,大規模言語モデル(LLM)によく適応するベクトル量子化(VQ)の高速化手法である。
本手法は,各層ごとの出力再構成MSEのヘシアンからの情報を用いて,残りの未定量重みを更新した1列以上の列の量子化をインターリーブする。
論文 参考訳(メタデータ) (2024-02-23T13:39:16Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Mastering Visual Continuous Control: Improved Data-Augmented
Reinforcement Learning [114.35801511501639]
視覚連続制御のためのモデルなし強化学習アルゴリズムDrQ-v2を提案する。
DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQの上に構築されている。
特にDrQ-v2は、ピクセル観察から直接、複雑なヒューマノイドの移動タスクを解くことができる。
論文 参考訳(メタデータ) (2021-07-20T17:29:13Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。