論文の概要: FastVGGT: Training-Free Acceleration of Visual Geometry Transformer
- arxiv url: http://arxiv.org/abs/2509.02560v1
- Date: Tue, 02 Sep 2025 17:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.13745
- Title: FastVGGT: Training-Free Acceleration of Visual Geometry Transformer
- Title(参考訳): FastVGGT:ビジュアル幾何学変換器の学習不要高速化
- Authors: You Shen, Zhipeng Zhang, Yansong Qu, Liujuan Cao,
- Abstract要約: VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
- 参考スコア(独自算出の注目度): 45.31920631559476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models for 3D vision have recently demonstrated remarkable capabilities in 3D perception. However, scaling these models to long-sequence image inputs remains a significant challenge due to inference-time inefficiency. In this work, we present a detailed analysis of VGGT, a state-of-the-art feed-forward visual geometry model and identify its primary bottleneck. Visualization further reveals a token collapse phenomenon in the attention maps. Motivated by these findings, we explore the potential of token merging in the feed-forward visual geometry model. Owing to the unique architectural and task-specific properties of 3D models, directly applying existing merging techniques proves challenging. To this end, we propose FastVGGT, which, for the first time, leverages token merging in the 3D domain through a training-free mechanism for accelerating VGGT. we devise a unique token partitioning strategy tailored to 3D architectures and tasks, effectively eliminating redundant computation while preserving VGGT's powerful reconstruction capacity. Extensive experiments on multiple 3D geometry benchmarks validate the effectiveness of our approach. Notably, with 1000 input images, FastVGGT achieves a 4x speedup over VGGT while mitigating error accumulation in long-sequence scenarios. These findings underscore the potential of token merging as a principled solution for scalable 3D vision systems. Code is available at: https://mystorm16.github.io/fastvggt/.
- Abstract(参考訳): 3次元視覚の基礎モデルは、最近3次元知覚において顕著な能力を示した。
しかし、これらのモデルを時系列画像入力にスケールすることは、推論時間の非効率のため、依然として大きな課題である。
本稿では,最新のフィードフォワード視覚幾何学モデルであるVGGTの詳細な解析を行い,その主なボトルネックを同定する。
可視化により、アテンションマップでトークン崩壊現象がさらに明らかになる。
これらの知見に触発され、私たちはフィードフォワード視覚幾何学モデルにおけるトークンマージの可能性を探る。
3Dモデルのユニークなアーキテクチャとタスク固有の性質のため、既存のマージ技術を直接適用することは困難である。
この目的のためにFastVGGTを提案する。これはVGGTを加速するトレーニングフリーメカニズムにより、3Dドメインにおけるトークンのマージを初めて活用する。
我々は,VGGTの強力な再構成能力を維持しつつ,冗長な計算を効果的に除去する,3Dアーキテクチャやタスクに適したユニークなトークン分割戦略を考案した。
複数の3次元幾何ベンチマークによる大規模な実験により,本手法の有効性が検証された。
特に、1000の入力画像で、FastVGGTはVGGTの4倍のスピードアップを実現し、長いシーケンスシナリオでのエラーの蓄積を緩和する。
これらの知見は、スケーラブルな3Dビジョンシステムのための原則的ソリューションとして、トークンマージの可能性を強調している。
コードは、https://mystorm16.github.io/fastvggt/.comで入手できる。
関連論文リスト
- Geometry-aware Temporal Aggregation Network for Monocular 3D Lane Detection [62.27919334393825]
モノクロ3次元車線検出のためのジオメトリ対応テンポラルアグリゲーションネットワーク(GTA-Net)を提案する。
一方,連続するフレーム間の幾何的整合性を利用する時空間幾何拡張モジュール(TGEM)を開発した。
一方,TIQG(Temporal Instance-aware Query Generation)では,時間的キューをクエリ生成に戦略的に組み込む。
論文 参考訳(メタデータ) (2025-04-29T08:10:17Z) - Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。
本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文 参考訳(メタデータ) (2025-04-05T14:42:13Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。
本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。
次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文 参考訳(メタデータ) (2022-03-13T06:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。