論文の概要: VGGT-X: When VGGT Meets Dense Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2509.25191v2
- Date: Wed, 08 Oct 2025 06:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.171382
- Title: VGGT-X: When VGGT Meets Dense Novel View Synthesis
- Title(参考訳): VGGT-X:VGGTが高精細な新しいビュー合成に出会ったとき
- Authors: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang,
- Abstract要約: 我々は3次元基礎モデル(3DFM)を高密度新規ビュー合成(NVS)に適用する問題について検討する。
我々の研究は、3DFMを高密度に拡大することは、VRAM負荷を劇的に増加させ、3Dトレーニングを低下させる不完全な出力の2つの基本的な障壁に直面することを明らかにした。
本稿では,1000以上の画像にスケール可能なメモリ効率のよいVGGT実装,VGGT出力向上のための適応的グローバルアライメント,堅牢な3DGSトレーニングプラクティスを取り入れたVGGT-Xを紹介する。
- 参考スコア(独自算出の注目度): 27.397168758449904
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel View Synthesis (NVS). Despite significant progress in Novel View Synthesis powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D attributes (e.g., camera poses and point clouds) acquired from Structure-from-Motion (SfM), which is often slow and fragile in low-texture or low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over the traditional pipeline and great potential for online NVS. But most of the validation and conclusions are confined to sparse-view settings. Our study reveals that naively scaling 3DFMs to dense views encounters two fundamental barriers: dramatically increasing VRAM burden and imperfect outputs that degrade initialization-sensitive 3D training. To address these barriers, we introduce VGGT-X, incorporating a memory-efficient VGGT implementation that scales to 1,000+ images, an adaptive global alignment for VGGT output enhancement, and robust 3DGS training practices. Extensive experiments show that these measures substantially close the fidelity gap with COLMAP-initialized pipelines, achieving state-of-the-art results in dense COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of remaining gaps with COLMAP-initialized rendering, providing insights for the future development of 3D foundation models and dense NVS. Our project page is available at https://dekuliutesla.github.io/vggt-x.github.io/
- Abstract(参考訳): 本研究では,3次元ファウンデーションモデル(3DFM)を高密度ノベルビュー合成(NVS)に適用する問題について検討する。
NeRFと3DGSによる新規ビュー合成の大幅な進歩にもかかわらず、現在のアプローチはStructure-from-Motion (SfM)から取得した正確な3D属性(例えば、カメラのポーズと点雲)に依存している。
最近の3DFMは、従来のパイプラインよりも桁違いのスピードアップを示し、オンラインNVSにとって大きな可能性を秘めている。
しかし、検証と結論のほとんどはスパースビューの設定に限られている。
我々の研究は、3DFMを高密度に拡大することは、VRAM負荷を劇的に増加させ、初期化に敏感な3Dトレーニングを低下させる不完全な出力の2つの基本的な障壁に直面することを明らかにした。
これらの障壁に対処するために,1000以上の画像にスケールするメモリ効率のよいVGGT実装,VGGT出力向上のための適応的グローバルアライメント,堅牢な3DGSトレーニングプラクティスを取り入れたVGGT-Xを導入する。
広汎な実験により、これらの測定はCOLMAP初期化パイプラインとのフィデリティギャップを著しく埋め、COLMAP非高密度NVSにおける最先端の結果とポーズ推定を達成した。
さらに,COLMAP初期化レンダリングによる残差の原因を分析し,3次元基礎モデルと高密度NVSの今後の発展に向けた洞察を提供する。
私たちのプロジェクトページはhttps://dekuliutesla.github.io/vggt-x.github.io/で公開されています。
関連論文リスト
- DWGS: Enhancing Sparse-View Gaussian Splatting with Hybrid-Loss Depth Estimation and Bidirectional Warping [8.67235980460198]
スパースビューからの新規ビュー合成は3次元再構成における中核的な課題である。
スパースビュー合成のための3DGSを強化する新しい統合フレームワークであるDWGSを提案する。
DWGSは21.13dBのPSNRと0.189LPIPSを達成し、リアルタイム推論能力を維持している。
論文 参考訳(メタデータ) (2025-09-29T15:03:31Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [45.31920631559476]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization [3.686808512438363]
この研究は、モノクロ画像を用いた3DGSのための畳み込みニューラルネットワーク(CNN)ベースのプリミティブイニシャライザに寄与する。
CNNは、入力として単一の画像を取り込み、カメラに対してターゲットのポーズとともにプリミティブのアセンブリとして表される粗い3Dモデルを出力する。
この研究はこれらの変種の比較を行い、ノイズまたは暗黙のポーズ推定の下で下流3DGSトレーニングの有効性を評価する。
論文 参考訳(メタデータ) (2025-07-25T17:43:29Z) - SparSplat: Fast Multi-View Reconstruction with Generalizable 2D Gaussian Splatting [7.9061560322289335]
スパースビュー画像から3次元形状再構成とNVSを行うために、フィードフォワード方式で2DGS表面パラメータを回帰するMVSベースの学習を提案する。
結果として得られるパイプラインは、DTU 3D再構築ベンチマークにおける最先端の成果を、最先端のNVSと同様に、チャンファーから地底までの距離で達成する。
論文 参考訳(メタデータ) (2025-05-04T16:33:47Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - MVPGS: Excavating Multi-view Priors for Gaussian Splatting from Sparse Input Views [27.47491233656671]
新規ビュー合成(NVS)は3次元視覚アプリケーションにおいて重要な課題である。
我々は,3次元ガウススプラッティングに基づくマルチビュー先行を探索する数ショットNVS法である textbfMVPGS を提案する。
実験により,提案手法はリアルタイムレンダリング速度で最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-09-22T05:07:20Z) - DOGS: Distributed-Oriented Gaussian Splatting for Large-Scale 3D Reconstruction Via Gaussian Consensus [56.45194233357833]
3DGSを分散訓練するDoGaussianを提案する。
大規模シーンで評価すると,3DGSのトレーニングを6回以上高速化する。
論文 参考訳(メタデータ) (2024-05-22T19:17:58Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。