論文の概要: Not All Tasks Quantize Equally: Fisher-Guided Quantization for Visual Geometry Transformer
- arxiv url: http://arxiv.org/abs/2605.15828v2
- Date: Fri, 22 May 2026 08:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:19.968457
- Title: Not All Tasks Quantize Equally: Fisher-Guided Quantization for Visual Geometry Transformer
- Title(参考訳): すべてのタスクが等しく量子化するわけではない:ビジュアル幾何学変換器のためのフィッシャーガイド量子化
- Authors: Yipu Zhang, Jintao Cheng, Weilun Feng, Jiehao Luo, Chuanguang Yang, Zhulin An, Yongjun Xu, Wei Zhang,
- Abstract要約: フィードフォワード3次元再構成モデルのためのFGQ(Fisher-Guided Quantization)を提案する。
FGQは対角的なフィッシャー情報マトリックスを使用して、タスク、ブロック、チャネル間で異なる感度を定量化する。
カメラポーズ推定、ポイントマップ再構成、深さ推定による実験は、FGQが一貫して最先端の量子化ベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 26.28481512169773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feed-forward 3D reconstruction models, represented by Visual Geometry Grounded Transformer (VGGT), jointly predict multiple visual geometry tasks such as depth estimation, camera pose prediction, and point cloud reconstruction in a single forward pass. They have been widely adopted in 3D vision applications, but their billion-scale parameters bring substantial memory and computation overhead, posing challenges for on-device deployment. Post-Training Quantization (PTQ) is an effective technique to reduce this overhead. Existing PTQ methods for feed-forward 3D models mainly focus on handling heavy-tailed activation distributions and constructing diverse calibration datasets. However, we observe that feed-forward 3D models predict multiple geometric attributes through a shared backbone, where different transformer blocks and hidden channels contribute distinctly to each task, resulting in substantially different sensitivities to quantization errors across tasks, blocks, and channels. Consequently, treating all tasks equally over-emphasizes insensitive tasks and causes significant accuracy loss on the sensitive ones. To address this issue, we propose Fisher-Guided Quantization (FGQ) for feed-forward 3D reconstruction models. Specifically, FGQ uses the diagonal Fisher information matrix to quantify the different sensitivities across tasks, blocks, and channels, and incorporates these sensitivities into the Learnable Affine Transformation during calibration to better preserve the channels and blocks most critical to each task. Extensive experiments across camera pose estimation, point map reconstruction, and depth estimation show that FGQ consistently outperforms state-of-the-art quantization baselines on VGGT, achieving up to 39% relative improvement under the 4-bit quantization. Code is available at https://github.com/ypzhng/FGQ.
- Abstract(参考訳): フィードフォワード3次元再構成モデルは、Visual Geometry Grounded Transformer (VGGT)によって表現され、深度推定、カメラポーズ予測、ポイントクラウド再構成のような複数の視覚的幾何学的タスクを1つの前方パスで共同で予測する。
それらは3Dビジョンアプリケーションで広く採用されているが、その数十億のパラメータによってメモリと計算のオーバーヘッドが大きくなり、デバイス上に展開する上での課題が浮かび上がっている。
ポストトレーニング量子化(PTQ)は、このオーバーヘッドを減らす効果的な手法である。
フィードフォワード3Dモデルの既存のPTQ手法は、主にヘビーテールの活性化分布の処理と多様なキャリブレーションデータセットの構築に重点を置いている。
しかし、フィードフォワード3Dモデルは、異なるトランスフォーマーブロックと隠されたチャネルがそれぞれのタスクにはっきりと寄与し、タスク、ブロック、チャンネル間での誤差の定量化に大きく異なる感度をもたらすような、共有バックボーンを介して複数の幾何学的属性を予測する。
その結果、全てのタスクが同様に過度に強調され、センシティブなタスクにかなりの精度の損失をもたらす。
この問題を解決するために,フィードフォワード3次元再構成モデルのためのFGQ(Fisher-Guided Quantization)を提案する。
具体的には、FGQは対角的なフィッシャー情報マトリックスを使用して、タスク、ブロック、チャネル間で異なる感度を定量化し、これらの感度をキャリブレーション中の学習可能なアフィン変換に組み込んで、各タスクに最も重要なチャンネルとブロックをよりよく保存する。
カメラポーズ推定、ポイントマップ再構成、深度推定による大規模な実験により、FGQはVGGTの最先端の量子化ベースラインを一貫して上回り、4ビットの量子化の下で最大39%の相対的な改善を達成している。
コードはhttps://github.com/ypzhng/FGQ.comで入手できる。
関連論文リスト
- Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - Visual Odometry with Transformers [68.453547770334]
特徴抽出により単眼フレームのシーケンスを処理するビジュアル・オドメトリ・トランスフォーマ(VoT)を導入する。
従来の方法とは異なり、VoTは密度の高い幾何学を推定することなくカメラの動きを直接予測し、監視のためにカメラのポーズのみに依存する。
VoTは、より大きなデータセットで効果的にスケールし、より強力なトレーニング済みバックボーンの恩恵を受け、多様なカメラモーションとキャリブレーション設定を一般化し、従来のメソッドよりも3倍以上高速に動作しながらパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-10-02T17:00:14Z) - Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - IDMS: Instance Depth for Multi-scale Monocular 3D Object Detection [1.7710335706046505]
拡張畳み込みに基づくマルチスケール認識モジュールは、異なるスケールターゲットに対するモデルの処理能力を向上するために設計されている。
提案アルゴリズムをKITTIテストセットと評価セットで検証することにより,実験結果から,車種別AP40の5.27%の改善が得られた。
論文 参考訳(メタデータ) (2022-12-03T04:02:31Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。