論文の概要: SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes
- arxiv url: http://arxiv.org/abs/2511.18290v1
- Date: Sun, 23 Nov 2025 05:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.749821
- Title: SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes
- Title(参考訳): SwiftVGGT: 大規模シーンのためのスケーラブルなビジュアルジオメトリ接地変換器
- Authors: Jungho Lee, Minhyeok Lee, Sunghun Yang, Minseok Kang, Sangyoun Lee,
- Abstract要約: 大規模シーンにおける3次元再構成は3次元知覚の基本的な課題である。
既存の手法では、速度を優先し、低品質な結果を生成するか、推論時間の遅いコストで高品質な再構築を実現する。
高品質な高密度3次元再構成を保ちながら、推論時間を大幅に短縮するトレーニング不要なSwiftVGGTを提案する。
- 参考スコア(独自算出の注目度): 30.52500975808177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D reconstruction in large-scale scenes is a fundamental task in 3D perception, but the inherent trade-off between accuracy and computational efficiency remains a significant challenge. Existing methods either prioritize speed and produce low-quality results, or achieve high-quality reconstruction at the cost of slow inference times. In this paper, we propose SwiftVGGT, a training-free method that significantly reduce inference time while preserving high-quality dense 3D reconstruction. To maintain global consistency in large-scale scenes, SwiftVGGT performs loop closure without relying on the external Visual Place Recognition (VPR) model. This removes redundant computation and enables accurate reconstruction over kilometer-scale environments. Furthermore, we propose a simple yet effective point sampling method to align neighboring chunks using a single Sim(3)-based Singular Value Decomposition (SVD) step. This eliminates the need for the Iteratively Reweighted Least Squares (IRLS) optimization commonly used in prior work, leading to substantial speed-ups. We evaluate SwiftVGGT on multiple datasets and show that it achieves state-of-the-art reconstruction quality while requiring only 33% of the inference time of recent VGGT-based large-scale reconstruction approaches.
- Abstract(参考訳): 大規模シーンにおける3次元再構成は3次元認識の基本的な課題であるが、精度と計算効率のトレードオフは依然として大きな課題である。
既存の手法では、速度を優先し、低品質な結果を生成するか、推論時間の遅いコストで高品質な再構築を実現する。
本稿では,高品質な高密度3次元再構成を保ちながら,推論時間を大幅に短縮するトレーニング不要なSwiftVGGTを提案する。
大規模なシーンにおけるグローバルな一貫性を維持するため、SwiftVGGTは、外部の視覚的場所認識(VPR)モデルに頼ることなくループクロージャを実行する。
これにより冗長な計算を排除し、キロメートル規模の環境を正確に再構築することができる。
さらに,Sim(3)をベースとしたSingular Value Decomposition (SVD) ステップを用いて,近傍のチャンクを整列させる点サンプリング手法を提案する。
これにより、Iteratively Reweighted Least Squares (IRLS) の最適化は不要になり、大幅なスピードアップにつながる。
我々は、複数のデータセット上でSwiftVGGTを評価し、最新のVGGTベースの大規模再構築アプローチの推論時間の33%しか必要とせず、最先端の再構築品質を達成することを示す。
関連論文リスト
- SOF: Sorted Opacity Fields for Fast Unbounded Surface Reconstruction [8.905668938519279]
3次元ガウス表現は、画像に基づくシーン再構成の品質と効率を大幅に改善した。
多くの既存手法は近似深度推定と大域的ソートに依存しており、アーティファクトを導入し、再構成メッシュの忠実さを制限することができる。
本稿では,3次元ガウスから詳細な表面を高速かつ高精度に復元する手法であるSorted Opacity Fields (SOF)を提案する。
論文 参考訳(メタデータ) (2025-06-23T21:20:52Z) - QuickSplat: Fast 3D Surface Reconstruction via Learned Gaussian Initialization [69.50126552763157]
表面再構成はコンピュータビジョンとグラフィックスの基本であり、3Dモデリング、混合現実、ロボット工学などの応用を可能にする。
レンダリングに基づく既存のアプローチは有望な結果を得るが、シーンごとに最適化されるため、テクスチャレスな領域をモデル化するのに苦労する可能性がある。
大規模屋内シーンの2次元ガウススプラッティング最適化のための高密度初期化を生成するために,データ駆動の先行処理を学習するQuickSplatを紹介する。
論文 参考訳(メタデータ) (2025-05-08T18:43:26Z) - Time of the Flight of the Gaussians: Optimizing Depth Indirectly in Dynamic Radiance Fields [20.363006625978787]
本稿では,C-ToFカメラを用いて動的シーンを再構成する手法を提案する。
この方法は、ニューラルアプローチと同じような、あるいはより良い精度を実現し、100倍高速である。
論文 参考訳(メタデータ) (2025-05-08T15:45:53Z) - FreeSplat++: Generalizable 3D Gaussian Splatting for Efficient Indoor Scene Reconstruction [50.534213038479926]
FreeSplat++は大規模な屋内全シーン再構築の代替手法である。
深度調整による微調整により,再現精度が大幅に向上し,トレーニング時間も大幅に短縮された。
論文 参考訳(メタデータ) (2025-03-29T06:22:08Z) - CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes [53.107474952492396]
CityGaussianV2は大規模なシーン再構築のための新しいアプローチである。
分解段階の密度化・深さ回帰手法を実装し, ぼやけたアーチファクトを除去し, 収束を加速する。
本手法は, 視覚的品質, 幾何学的精度, ストレージ, トレーニングコストの両立を図っている。
論文 参考訳(メタデータ) (2024-11-01T17:59:31Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。