論文の概要: Neural-MMGS: Multi-modal Neural Gaussian Splats for Large-Scale Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2509.17762v1
- Date: Mon, 22 Sep 2025 13:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.40918
- Title: Neural-MMGS: Multi-modal Neural Gaussian Splats for Large-Scale Scene Reconstruction
- Title(参考訳): Neural-MMGS:大規模シーン再構成のためのマルチモーダル型ニューラルガウススプラット
- Authors: Sitian Shen, Georgi Pramatarov, Yifu Tao, Daniele De Martini,
- Abstract要約: マルチモーダルな大規模シーン再構築のためのフレームワークであるNeural-MMGSを提案する。
私たちのアプローチは、イメージ、LiDAR、セマンティクスといったすべてのモダリティを、コンパクトで学習可能な埋め込みに融合させます。
我々は,このフレームワークをオックスフォード・スパイアとKITTI-360データセット上で評価した。
- 参考スコア(独自算出の注目度): 7.923706570755559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes Neural-MMGS, a novel neural 3DGS framework for multimodal large-scale scene reconstruction that fuses multiple sensing modalities in a per-gaussian compact, learnable embedding. While recent works focusing on large-scale scene reconstruction have incorporated LiDAR data to provide more accurate geometric constraints, we argue that LiDAR's rich physical properties remain underexplored. Similarly, semantic information has been used for object retrieval, but could provide valuable high-level context for scene reconstruction. Traditional approaches append these properties to Gaussians as separate parameters, increasing memory usage and limiting information exchange across modalities. Instead, our approach fuses all modalities -- image, LiDAR, and semantics -- into a compact, learnable embedding that implicitly encodes optical, physical, and semantic features in each Gaussian. We then train lightweight neural decoders to map these embeddings to Gaussian parameters, enabling the reconstruction of each sensing modality with lower memory overhead and improved scalability. We evaluate Neural-MMGS on the Oxford Spires and KITTI-360 datasets. On Oxford Spires, we achieve higher-quality reconstructions, while on KITTI-360, our method reaches competitive results with less storage consumption compared with current approaches in LiDAR-based novel-view synthesis.
- Abstract(参考訳): 本稿では,マルチモーダルな大規模シーン再構築のためのニューラル3DGSフレームワークであるNeural-MMGSを提案する。
大規模なシーン再構成に焦点を当てた最近の研究は、より正確な幾何学的制約を提供するためにLiDARデータを組み込んでいるが、LiDARのリッチな物理特性は未解明のままである。
同様に、意味情報はオブジェクト検索に使われてきたが、シーン再構築には貴重な高レベルなコンテキストを提供する可能性がある。
従来のアプローチでは、これらのプロパティを別のパラメータとしてガウスに付加し、メモリ使用量を増やし、モジュール間の情報交換を制限する。
代わりに、我々のアプローチは、画像、LiDAR、セマンティックスといった全てのモダリティを、光学的、物理的、セマンティックな特徴を暗黙的にエンコードするコンパクトで学習可能な埋め込みに融合させます。
次に、これらの埋め込みをガウスパラメータにマッピングするように軽量なニューラルデコーダを訓練し、メモリオーバーヘッドの低減とスケーラビリティの向上により、各センシングモードの再構築を可能にします。
我々は,Oxford SpiresとKITTI-360データセットのニューラルMMGSを評価する。
オックスフォード・スパイルズでは、高品質な再構成を実現し、KITTI-360では、この手法は、LiDARベースの新規ビュー合成における現在のアプローチと比較して、ストレージ消費の少ない競合結果に達する。
関連論文リスト
- Detail Across Scales: Multi-Scale Enhancement for Full Spectrum Neural Representations [4.899720537787801]
Inlicit Neural representations (INR) は、離散配列ベースのデータ表現に代わるコンパクトでパラメトリックな代替品として登場した。
本稿では,ウェーブレットをインフォームした暗黙的ニューラル表現であるWIEN-INRを提案する。
WIEN-INRは,コンパクトなモデルサイズを維持しながら,より優れた再現性を実現する。
論文 参考訳(メタデータ) (2025-09-19T00:15:39Z) - MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction [13.941042770932794]
新規なビュー合成のためのフィードフォワードアプローチであるmulti-Baseline Gaussian Splatting(MuRF)を提案する。
MuRFは、複数のベースライン設定と多様なシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-06T10:34:24Z) - HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis [59.25751939710903]
本稿では,長い単眼RGBビデオのエンボディドビュー合成に対処する,変形可能なガウススプラッティングフレームワークを提案する。
提案手法は,非可逆ガウス散乱変形ネットワークを利用して大規模動的環境を正確に再構築する。
その結果、現実のシナリオにおけるEVSの実用的でスケーラブルなソリューションが浮かび上がっています。
論文 参考訳(メタデータ) (2025-06-24T03:54:40Z) - SA-GS: Semantic-Aware Gaussian Splatting for Large Scene Reconstruction with Geometry Constrain [43.80789481557894]
セマンティック・アウェアな3Dガウス・スプラットを用いた細粒度3次元幾何再構成のためのSA-GSという新しい手法を提案する。
我々はSAMやDINOのような大きな視覚モデルに格納された事前情報を利用してセマンティックマスクを生成する。
我々は,新しい確率密度に基づく抽出法を用いて点雲を抽出し,ガウススプラッツを下流タスクに不可欠な点雲に変換する。
論文 参考訳(メタデータ) (2024-05-27T08:15:10Z) - HAC: Hash-grid Assisted Context for 3D Gaussian Splatting Compression [55.6351304553003]
3D Gaussian Splatting (3DGS) は、新しいビュー合成のための有望なフレームワークとして登場した。
高速な3DGS表現のためのHash-grid Assisted Context (HAC) フレームワークを提案する。
私たちの研究は、コンテキストベースの3DGS表現の圧縮を探求するパイオニアです。
論文 参考訳(メタデータ) (2024-03-21T16:28:58Z) - NeRF-LOAM: Neural Implicit Representation for Large-Scale Incremental
LiDAR Odometry and Mapping [14.433784957457632]
ニューラルドメトリー,ニューラルマッピング,メッシュ再構成の3つのモジュールからなる新しいNeRF-LOAMを提案する。
提案手法は,LiDARデータを用いた大規模環境において,最先端のオドメトリーとマッピング性能を実現するとともに,強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-03-19T16:40:36Z) - VolRecon: Volume Rendering of Signed Ray Distance Functions for
Generalizable Multi-View Reconstruction [64.09702079593372]
VolRecon は Signed Ray Distance Function (SRDF) を用いた新しい一般化可能な暗黙的再構成法である
DTUデータセットでは、VolReconはスパースビュー再構築においてSparseNeuSを約30%上回り、フルビュー再構築においてMVSNetと同等の精度を達成する。
論文 参考訳(メタデータ) (2022-12-15T18:59:54Z) - BNV-Fusion: Dense 3D Reconstruction using Bi-level Neural Volume Fusion [85.24673400250671]
ニューラル・ボリューム・フュージョン (BNV-Fusion) は, ニューラル・暗黙表現とニューラル・レンダリングの最近の進歩を活用して高密度3次元再構成を行う。
新しい深度マップをグローバルな暗黙的表現に漸進的に統合するために、我々は新しい二段階融合戦略を提案する。
提案手法を定量的に定性的に評価し,既存手法よりも有意な改善を示した。
論文 参考訳(メタデータ) (2022-04-03T19:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。