論文の概要: Quantized Visual Geometry Grounded Transformer
- arxiv url: http://arxiv.org/abs/2509.21302v2
- Date: Tue, 30 Sep 2025 03:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.368515
- Title: Quantized Visual Geometry Grounded Transformer
- Title(参考訳): 量子化ビジュアル幾何接地変圧器
- Authors: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu,
- Abstract要約: 本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
- 参考スコア(独自算出の注目度): 67.15451442018258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based 3D reconstruction models, represented by Visual Geometry Grounded Transformers (VGGTs), have made remarkable progress with the use of large-scale transformers. Their prohibitive computational and memory costs severely hinder real-world deployment. Post-Training Quantization (PTQ) has become a common practice for compressing and accelerating models. However, we empirically observe that PTQ faces unique obstacles when compressing billion-scale VGGTs: the data-independent special tokens induce heavy-tailed activation distributions, while the multi-view nature of 3D data makes calibration sample selection highly unstable. This paper proposes the first Quantization framework for VGGTs, namely QuantVGGT. This mainly relies on two technical contributions: First, we introduce Dual-Smoothed Fine-Grained Quantization, which integrates pre-global Hadamard rotation and post-local channel smoothing to mitigate heavy-tailed distributions and inter-channel variance robustly. Second, we design Noise-Filtered Diverse Sampling, which filters outliers via deep-layer statistics and constructs frame-aware diverse calibration clusters to ensure stable quantization ranges. Comprehensive experiments demonstrate that QuantVGGT achieves the state-of-the-art results across different benchmarks and bit-width, surpassing the previous state-of-the-art generic quantization method with a great margin. We highlight that our 4-bit QuantVGGT can deliver a 3.7$\times$ memory reduction and 2.5$\times$ acceleration in real-hardware inference, while maintaining reconstruction accuracy above 98\% of its full-precision counterpart. This demonstrates the vast advantages and practicality of QuantVGGT in resource-constrained scenarios. Our code is released in https://github.com/wlfeng0509/QuantVGGT.
- Abstract(参考訳): Visual Geometry Grounded Transformers (VGGTs) で表される学習に基づく3次元再構成モデルは、大規模トランスを使用することで顕著な進歩を遂げた。
計算とメモリの禁止は、現実世界の展開を著しく妨げます。
ポストトレーニング量子化(PTQ)は、モデルを圧縮・加速する一般的なプラクティスとなっている。
しかし、PTQは数十億のVGGTを圧縮する際に独自の障害に直面し、データ非依存の特殊トークンは重み付き活性化分布を誘導する一方、3Dデータのマルチビュー特性はキャリブレーションサンプルの選択を極めて不安定にする。
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
まず、球状化前のアダマール回転と局所後流路平滑化を統合して重み付き分布を緩和し、チャネル間分散を堅牢に行うDual-Smoothed Fine-Grained Quantizationを導入する。
第2に,重層統計を用いて外周をフィルタし,安定した量子化範囲を確保するためにフレーム対応多彩なキャリブレーションクラスタを構築するノイズフィルタディバースサンプリングを設計する。
総合的な実験により、QuantVGGTは様々なベンチマークとビット幅にわたる最先端の結果を達成し、それまでの最先端の汎用量子化法をはるかに上回っていることが示された。
我々は、我々の4ビットQuantVGTが3.7$\times$メモリ削減と2.5$\times$アクセラレーションをリアルタイム推論で提供し、フル精度の98\%以上の再現精度を維持することを強調した。
これは、リソース制約のあるシナリオにおけるQuantVGGTの大きな利点と実用性を示している。
私たちのコードはhttps://github.com/wlfeng0509/QuantVGT.comでリリースされています。
関連論文リスト
- OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting [20.944120156871108]
後学習量子化(PTQ)は、Large Language Models(LLMs)の圧縮・加速技術として広く採用されている。
LLM量子化における大きな課題は、不均一で重み付きデータ分布が量子化範囲を拡大し、ほとんどの値のビット精度を低下させることである。
本稿では、量子化空間におけるデータの空間利用率を測定することにより、変換データの量子化性を効果的に評価する新しい指標である量子化空間利用率(BrotherQSUR)を紹介する。
論文 参考訳(メタデータ) (2025-01-23T08:24:25Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。