論文の概要: $\text{VG}^2$GT: Voxel-Gaussian Splatting Visual Geometry Grounded Transformer
- arxiv url: http://arxiv.org/abs/2606.01573v2
- Date: Wed, 03 Jun 2026 09:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.596843
- Title: $\text{VG}^2$GT: Voxel-Gaussian Splatting Visual Geometry Grounded Transformer
- Title(参考訳): $\text{VG}^2$GT: Voxel-Gaussian Splatting Visual Geometry Grounded Transformer
- Authors: Yibin Zhao, Yihan Pan, Jun Nan, Wenli Yang, Liwei Chen, Jianjun Yi,
- Abstract要約: $textVG2$GTはVoxel-Gaussian Splatting Visual Geometry-Grounded Transformerである。
$textVG2$GTは、広く使われているDTU、Replica、TAT、ScanNetデータセットの現在の最先端メソッドより優れている。
- 参考スコア(独自算出の注目度): 6.390470514442811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gaussian splatting has shown strong potential for 3D reconstruction and novel view synthesis. However, most existing methods require accurate camera parameters and per-scene optimization, while feed-forward methods with pixel-aligned Gaussian primitives often suffer from artifacts and non-uniform primitives. In this paper, we propose $\text{VG}^2$GT, a Voxel-Gaussian Splatting Visual Geometry-Grounded Transformer. $\text{VG}^2$GT leverages a frozen pretrained visual foundation model (VFM), incorporates a multi-scale differentiable voxel module to enhance geometric understanding, and directly splits and regresses Gaussian primitive parameters from voxel features. During training, depth maps are supervised through stochastic solid volume rendering, enabling geometrically accurate Gaussian scene reconstruction while keeping the visual foundation model fully frozen. This design enables $\text{VG}^2$GT to be seamlessly plugged into any patch-feature-based VFM, while substantially reducing the required training cost. $\text{VG}^2$GT outperforms current state-of-the-art methods on widely used DTU, Replica, TAT, and ScanNet datasets.
- Abstract(参考訳): ガウススプラッティングは3次元再構成と新しいビュー合成に強い可能性を示している。
しかし、既存のほとんどの方法は正確なカメラパラメータとシーンごとの最適化を必要とするが、画素アラインのガウスプリミティブを持つフィードフォワードメソッドはアーティファクトや非ユニフォームプリミティブに悩まされることが多い。
本稿では,Voxel-Gaussian Splatting Visual Geometry-Grounded Transformer の $\text{VG}^2$GT を提案する。
$\text{VG}^2$GT は凍結した事前学習された視覚基盤モデル (VFM) を活用し、幾何学的理解を強化するためにマルチスケールの微分可能なボクセルモジュールを組み込み、ボクセル特徴からガウス的原始パラメータを直接分割して退避させる。
トレーニング中、深度マップは確率的ソリッドボリュームレンダリングによって監視され、幾何学的に正確なガウスのシーン再構成が可能であり、視覚基盤モデルは完全に凍結されている。
この設計により、$\text{VG}^2$GTはどんなパッチ機能ベースのVFMにもシームレスに接続でき、必要なトレーニングコストを大幅に削減できる。
$\text{VG}^2$GTは、広く使われているDTU、Replica、TAT、ScanNetデータセットの現在の最先端メソッドより優れている。
関連論文リスト
- PAGaS: Pixel-Aligned 1DoF Gaussian Splatting for Depth Refinement [22.163005194153897]
ガウススプラッティング(GS)は、高品質な新規ビュー合成のための効率的なアプローチとして登場した。
我々は、新しいビュー合成から多視点ステレオ深度タスクへのGS表現を適応させる1DoFガウス格子(PAGaS)を提案する。
論文 参考訳(メタデータ) (2026-04-24T00:29:17Z) - ${C}^{3}$-GS: Learning Context-aware, Cross-dimension, Cross-scale Feature for Generalizable Gaussian Splatting [16.868578618340262]
Generalizable Gaussian Splattingは、シーンごとの最適化なしに、見えないシーンのための新しいビューを合成することを目的としている。
本稿では,コンテキスト認識,クロスディメンジョン,クロススケール制約を取り入れた特徴学習を支援するフレームワークであるmathbfC3$-GSを提案する。
我々のアーキテクチャは、3つの軽量モジュールを統合レンダリングパイプラインに統合し、機能融合を改善し、追加の監視を必要とせずに合成を可能にする。
論文 参考訳(メタデータ) (2025-08-28T13:12:18Z) - HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis [59.25751939710903]
本稿では,長い単眼RGBビデオのエンボディドビュー合成に対処する,変形可能なガウススプラッティングフレームワークを提案する。
提案手法は,非可逆ガウス散乱変形ネットワークを利用して大規模動的環境を正確に再構築する。
その結果、現実のシナリオにおけるEVSの実用的でスケーラブルなソリューションが浮かび上がっています。
論文 参考訳(メタデータ) (2025-06-24T03:54:40Z) - Sparse2DGS: Geometry-Prioritized Gaussian Splatting for Surface Reconstruction from Sparse Views [45.125032766506536]
完全かつ正確な再構成のためのMVS-d Gaussian Splatting PipelineであるSparse2DGSを提案する。
我々の重要な洞察は、幾何学的優先順位付けされた拡張スキームを組み込むことであり、不適切な条件下での直接的かつ堅牢な幾何学的学習を可能にする。
Sparse2DGSは、NeRFベースの微調整方式よりも2倍の速さで既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-04-29T02:47:02Z) - MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [86.87464903285208]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。
任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。
実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - HiSplat: Hierarchical 3D Gaussian Splatting for Generalizable Sparse-View Reconstruction [46.269350101349715]
HiSplatは、一般化可能な3Dガウススプラッティングのための新しいフレームワークである。
階層的な3Dガウスを粗大な戦略で生成する。
これにより、再構築品質とデータセット間の一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-10-08T17:59:32Z) - R$^2$-Gaussian: Rectifying Radiative Gaussian Splatting for Tomographic Reconstruction [53.19869886963333]
3次元ガウススプラッティング(3DGS)は画像のレンダリングと表面再構成において有望な結果を示した。
本稿では,Sparse-viewトモグラフィ再構成のための3DGSベースのフレームワークであるR2$-Gaussianを紹介する。
論文 参考訳(メタデータ) (2024-05-31T08:39:02Z) - MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images [102.7646120414055]
入力としてスパースなマルチビュー画像を与えられたMVSplatは、クリーンなフィードフォワード3Dガウスを予測できる。
大規模RealEstate10KとACIDベンチマークでは、MVSplatは高速フィードフォワード推論速度(22fps)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-21T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。