論文の概要: VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
- arxiv url: http://arxiv.org/abs/2507.16443v1
- Date: Tue, 22 Jul 2025 10:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.078442
- Title: VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
- Title(参考訳): VGGT-Long:KilometerスケールのロングRGBシーケンスにVGGTの限界を押し上げる
- Authors: Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie,
- Abstract要約: VGGT-Long(VGGT-Long)は、モノクローナル3D再構築の限界を、キロスケールで無界の屋外環境に広げるシステムである。
KITTIデータセットとVirtual KITTIデータセットを用いて本手法の評価を行った。
結果は、現実の環境でスケーラブルなモノラルな3Dシーンに基礎モデルを活用する可能性を強調している。
- 参考スコア(独自算出の注目度): 20.693979971244342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models for 3D vision have recently demonstrated remarkable capabilities in 3D perception. However, extending these models to large-scale RGB stream 3D reconstruction remains challenging due to memory limitations. In this work, we propose VGGT-Long, a simple yet effective system that pushes the limits of monocular 3D reconstruction to kilometer-scale, unbounded outdoor environments. Our approach addresses the scalability bottlenecks of existing models through a chunk-based processing strategy combined with overlapping alignment and lightweight loop closure optimization. Without requiring camera calibration, depth supervision or model retraining, VGGT-Long achieves trajectory and reconstruction performance comparable to traditional methods. We evaluate our method on KITTI, Waymo, and Virtual KITTI datasets. VGGT-Long not only runs successfully on long RGB sequences where foundation models typically fail, but also produces accurate and consistent geometry across various conditions. Our results highlight the potential of leveraging foundation models for scalable monocular 3D scene in real-world settings, especially for autonomous driving scenarios. Code is available at https://github.com/DengKaiCQ/VGGT-Long.
- Abstract(参考訳): 3次元視覚の基礎モデルは、最近3次元知覚において顕著な能力を示した。
しかし、これらのモデルを大規模RGBストリーム3D再構成に拡張することは、メモリ制限のため、依然として困難である。
本研究では, 単分子3次元再構成の限界をキロスケールで非有界な屋外環境へ押し上げる, 単純かつ効果的なシステムであるVGGT-Longを提案する。
提案手法は,重なり合うアライメントと軽量ループクロージャ最適化を組み合わせたチャンクベースの処理戦略により,既存モデルのスケーラビリティボトルネックに対処する。
VGGT-Longは、カメラキャリブレーション、深度監視、モデル再訓練を必要とせず、従来の手法に匹敵する軌道と復元性能を達成している。
提案手法を,KITTI,Waymo,Virtual KITTIのデータセット上で評価する。
VGGT-Longは、ファンデーションモデルが通常失敗する長いRGBシーケンスで正常に動作するだけでなく、様々な条件で正確で一貫した幾何を生成する。
この結果から, 現実の環境, 特に自動運転のシナリオにおいて, スケーラブルなモノクル3Dシーンに基礎モデルを活用する可能性を強調した。
コードはhttps://github.com/DengKaiCQ/VGGT-Longで入手できる。
関連論文リスト
- IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation [78.00035681410348]
IGL-Navは、効率的で3D対応の画像ゴールナビゲーションのためのインクリメンタルな3Dガウスフレームワークである。
より困難な自由視点のイメージゴール設定を処理し、現実世界のロボットプラットフォームにデプロイすることができる。
論文 参考訳(メタデータ) (2025-08-01T17:59:56Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。
ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-03-14T17:59:47Z) - MVS-GS: High-Quality 3D Gaussian Splatting Mapping via Online Multi-View Stereo [9.740087094317735]
オンライン多視点ステレオ手法を用いた高品質な3DGSモデリングのための新しいフレームワークを提案する。
本手法は,局所時間窓から逐次フレームを用いてMVS深度を推定し,包括的深度改善手法を適用した。
実験の結果,本手法は最先端の高密度SLAM法より優れていた。
論文 参考訳(メタデータ) (2024-12-26T09:20:04Z) - Object Gaussian for Monocular 6D Pose Estimation from Sparse Views [4.290993205307184]
ガウス的手法を用いたスパースビューオブジェクトポーズ推定のための新しいフレームワークであるSGPoseを紹介する。
最大10ビューを与えられたSGPoseは、ランダムな立方体から始めることで幾何学的認識表現を生成する。
典型的なベンチマーク、特にOcclusion LM-Oデータセットの実験では、SGPoseはスパースビューの制約下であっても既存のメソッドよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-04T10:03:11Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。