論文の概要: SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images
- arxiv url: http://arxiv.org/abs/2510.15072v1
- Date: Thu, 16 Oct 2025 18:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.356041
- Title: SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images
- Title(参考訳): SaLon3R:非ポーズ画像からの構造認識型長期一般化可能な3次元再構成
- Authors: Jiaxin Guo, Tongfan Guan, Wenzhen Dong, Wenzhao Zheng, Wenting Wang, Yue Wang, Yeung Yam, Yun-Hui Liu,
- Abstract要約: SaLon3Rは構造対応の長期3DGS再構成のための新しいフレームワークである。
10 FPS以上で50以上のビューを再構築でき、50%から90%の冗長性除去が可能である。
提案手法は, 1回のフィードフォワードパスにおいて, アーティファクトを効果的に解決し, 冗長な3DGSを創出する。
- 参考スコア(独自算出の注目度): 31.94503176488054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D Gaussian Splatting (3DGS) have enabled generalizable, on-the-fly reconstruction of sequential input views. However, existing methods often predict per-pixel Gaussians and combine Gaussians from all views as the scene representation, leading to substantial redundancies and geometric inconsistencies in long-duration video sequences. To address this, we propose SaLon3R, a novel framework for Structure-aware, Long-term 3DGS Reconstruction. To our best knowledge, SaLon3R is the first online generalizable GS method capable of reconstructing over 50 views in over 10 FPS, with 50% to 90% redundancy removal. Our method introduces compact anchor primitives to eliminate redundancy through differentiable saliency-aware Gaussian quantization, coupled with a 3D Point Transformer that refines anchor attributes and saliency to resolve cross-frame geometric and photometric inconsistencies. Specifically, we first leverage a 3D reconstruction backbone to predict dense per-pixel Gaussians and a saliency map encoding regional geometric complexity. Redundant Gaussians are compressed into compact anchors by prioritizing high-complexity regions. The 3D Point Transformer then learns spatial structural priors in 3D space from training data to refine anchor attributes and saliency, enabling regionally adaptive Gaussian decoding for geometric fidelity. Without known camera parameters or test-time optimization, our approach effectively resolves artifacts and prunes the redundant 3DGS in a single feed-forward pass. Experiments on multiple datasets demonstrate our state-of-the-art performance on both novel view synthesis and depth estimation, demonstrating superior efficiency, robustness, and generalization ability for long-term generalizable 3D reconstruction. Project Page: https://wrld.github.io/SaLon3R/.
- Abstract(参考訳): 近年の3Dガウススプラッティング(3DGS)は、逐次的な入力ビューの一般化とオンザフライ再構成を可能にしている。
しかし、既存の手法はしばしばピクセルごとのガウスを予測し、すべての視点からガウスをシーン表現として組み合わせることで、長期ビデオシーケンスにおけるかなりの冗長性と幾何学的不整合をもたらす。
そこで本研究では,構造認識・長期3DGS再構成のための新しいフレームワークであるSaLon3Rを提案する。
われわれの知る限り、SaLon3Rは10 FPSで50以上のビューを再構築し、50%から90%の冗長性を除去できる最初のオンライン汎用GS手法である。
提案手法では, 可変な彩度を意識したガウス量子化と, フレーム間の幾何学的および測光的不整合を解決するために, アンカー特性と彩度を改良する3Dポイント変換器を組み合わせることで, 冗長性を解消する小型アンカープリミティブを導入する。
具体的には、まず3次元再構成バックボーンを用いて、ピクセルあたりの密度を予測し、局所的な幾何学的複雑さを符号化したサリエンシマップを作成する。
冗長ガウスは、高複雑さ領域を優先順位付けすることでコンパクトアンカーに圧縮される。
3Dポイント変換器は、トレーニングデータから3D空間における空間的構造的先行を学習し、アンカー特性とサリエンシを洗練し、幾何学的忠実度を局所的に適応したガウス復号を可能にする。
カメラパラメータやテストタイムの最適化がなければ、我々の手法は成果物を効果的に解決し、1回のフィードフォワードパスで冗長な3DGSをプルークする。
複数のデータセットの実験は、新しいビュー合成と深さ推定の両方における最先端の性能を示し、より優れた効率、ロバスト性、長期の一般化可能な3D再構成のための一般化能力を示す。
プロジェクトページ: https://wrld.github.io/SaLon3R/。
関連論文リスト
- Stereo-GS: Multi-View Stereo Vision Model for Generalizable 3D Gaussian Splatting Reconstruction [30.518107360632488]
一般化可能な3Dガウス・スプレイティング・リコンストラクションは、高度な画像から3Dコンテンツの作成を展示する。
methodは現実世界の3Dコンテンツ生成に効率的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-20T11:33:13Z) - CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes [53.107474952492396]
CityGaussianV2は大規模なシーン再構築のための新しいアプローチである。
分解段階の密度化・深さ回帰手法を実装し, ぼやけたアーチファクトを除去し, 収束を加速する。
本手法は, 視覚的品質, 幾何学的精度, ストレージ, トレーニングコストの両立を図っている。
論文 参考訳(メタデータ) (2024-11-01T17:59:31Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Effective Rank Analysis and Regularization for Enhanced 3D Gaussian Splatting [33.01987451251659]
3D Gaussian Splatting(3DGS)は、高品質な3D再構成によるリアルタイムレンダリングが可能な有望な技術として登場した。
その可能性にもかかわらず、3DGSは針状アーティファクト、準最適ジオメトリー、不正確な正常といった課題に遭遇する。
正規化として有効ランクを導入し、ガウスの構造を制約する。
論文 参考訳(メタデータ) (2024-06-17T15:51:59Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-24T20:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。