論文の概要: LiteVGGT: Boosting Vanilla VGGT via Geometry-aware Cached Token Merging
- arxiv url: http://arxiv.org/abs/2512.04939v1
- Date: Thu, 04 Dec 2025 16:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.261278
- Title: LiteVGGT: Boosting Vanilla VGGT via Geometry-aware Cached Token Merging
- Title(参考訳): LiteVGGT:Geometry-aware Cached Token MergingによるVanilla VGGTのブーピング
- Authors: Zhijian Shu, Cheng Lin, Tao Xie, Wei Yin, Ben Li, Zhiyuan Pu, Weize Li, Yao Yao, Xun Cao, Xiaoyang Guo, Xiao-Xiao Long,
- Abstract要約: Visual Geometry Grounded Transformer (VGGT)のような3次元視覚基盤モデルは、幾何学的知覚において大きく進歩している。
LiteVGGTは、長いシーケンスでは時間がかかり、メモリ集約的であり、何百もの画像を超える大規模なシーンにしか適用できない。
最大10倍の高速化とメモリ削減を実現し,1000イメージシーンの効率的な処理を実現するLiteVGGTを提案する。
- 参考スコア(独自算出の注目度): 46.29641757048328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D vision foundation models like Visual Geometry Grounded Transformer (VGGT) have advanced greatly in geometric perception. However, it is time-consuming and memory-intensive for long sequences, limiting application to large-scale scenes beyond hundreds of images. To address this, we propose LiteVGGT, achieving up to 10x speedup and substantial memory reduction, enabling efficient processing of 1000-image scenes. We derive two key insights for 3D reconstruction: (1) tokens from local image regions have inherent geometric correlations, leading to high similarity and computational redundancy; (2) token similarity across adjacent network layers remains stable, allowing for reusable merge decisions. Guided by these, we design a simple yet efficient strategy, dubbed geometry-aware cached token merging. We analyze each token's geometric importance, optimizing anchor token selection to better preserve key information for reconstruction. We also cache and reuse merge indices across layers, substantially reducing latency with minimal accuracy impact. This strategy retains VGGT's core performance, enabling efficient fine-tuning and FP8 quantization for further gains. Extensive experiments validate LiteVGGT's effectiveness, scalability, and robustness. Project page: https://garlicba.github.io/LiteVGGT/
- Abstract(参考訳): Visual Geometry Grounded Transformer (VGGT)のような3次元視覚基盤モデルは、幾何学的知覚において大きく進歩している。
しかし、長いシーケンスでは時間がかかり、メモリ集約性が高く、数百の画像を超える大規模なシーンにしか適用できない。
そこで本研究では,最大10倍の高速化とメモリ削減を実現し,1000イメージシーンの効率的な処理を実現するLiteVGGTを提案する。
1) 局所画像領域からのトークンは固有の幾何学的相関を持ち,高い類似性と計算冗長性をもたらす; (2) 隣接するネットワーク層間のトークン類似性は安定であり,再利用可能なマージ決定を可能にする。
これらによって導かれ、ジオメトリ対応のキャッシュトークンマージと呼ばれる、シンプルで効率的な戦略を設計する。
我々は各トークンの幾何学的重要性を分析し、アンカートークンの選択を最適化し、復元のための重要な情報をよりよく保存する。
また、レイヤ間のマージインデックスのキャッシュと再利用も行っています。
この戦略はVGGTのコア性能を保ち、より効率的な微調整とFP8量子化を可能にした。
大規模な実験はLiteVGGTの有効性、スケーラビリティ、堅牢性を検証する。
プロジェクトページ: https://garlicba.github.io/LiteVGT/
関連論文リスト
- FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention [11.71939856454585]
マルチビュー画像からの3D再構成は、コンピュータビジョンにおける中核的な課題である。
最近のフィードフォワード法は、従来のシーンごとの最適化手法に代わる効率的で堅牢な代替手段として現れている。
我々は、ディスクリプタベースのアテンションメカニズムを通じて、このボトルネックに対処する効率的な代替手段であるFlashVGTを紹介します。
論文 参考訳(メタデータ) (2025-12-01T11:12:37Z) - How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need? [56.09721366421187]
トークンは極めて冗長であり、実質的な非効率性をもたらすことを示す。
本稿では,最大90~95%のトークン数を削減できるグローバルなグラフトークンマージ手法であるgitmerge3Dを紹介する。
この研究は、大規模な3Dトランスフォーマーモデルの冗長性を初めて評価し、より効率的な3D基盤アーキテクチャの開発に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-11-07T17:38:01Z) - Johnson-Lindenstrauss Lemma Guided Network for Efficient 3D Medical Segmentation [42.23472421492995]
本研究では,高次元画像の特徴に基づいてフレームワークを再設計する方法について述べる。
私たちのアプローチであるVeloxSegは、デプロイ可能でデュアルストリームのCNN-Transformerアーキテクチャから始まります。
VeloxSegはDiceを26%改善し、GPUスループットを11倍、CPUを48倍向上させた。
論文 参考訳(メタデータ) (2025-09-26T13:12:43Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes [53.107474952492396]
CityGaussianV2は大規模なシーン再構築のための新しいアプローチである。
分解段階の密度化・深さ回帰手法を実装し, ぼやけたアーチファクトを除去し, 収束を加速する。
本手法は, 視覚的品質, 幾何学的精度, ストレージ, トレーニングコストの両立を図っている。
論文 参考訳(メタデータ) (2024-11-01T17:59:31Z) - Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields [13.729716867839509]
ハイパフォーマンスを維持しつつガウスの数を著しく削減する学習可能なマスク戦略を提案する。
さらに、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2024-08-07T14:56:34Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。