論文の概要: PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM
- arxiv url: http://arxiv.org/abs/2501.00352v1
- Date: Tue, 31 Dec 2024 08:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:37.753925
- Title: PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM
- Title(参考訳): パノSLAM:ガウスSLAMによるパノプティカル3次元シーン再構成
- Authors: Runnan Chen, Zhaoqing Wang, Jiepeng Wang, Yuexin Ma, Mingming Gong, Wenping Wang, Tongliang Liu,
- Abstract要約: PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
- 参考スコア(独自算出の注目度): 105.01907579424362
- License:
- Abstract: Understanding geometric, semantic, and instance information in 3D scenes from sequential video data is essential for applications in robotics and augmented reality. However, existing Simultaneous Localization and Mapping (SLAM) methods generally focus on either geometric or semantic reconstruction. In this paper, we introduce PanoSLAM, the first SLAM system to integrate geometric reconstruction, 3D semantic segmentation, and 3D instance segmentation within a unified framework. Our approach builds upon 3D Gaussian Splatting, modified with several critical components to enable efficient rendering of depth, color, semantic, and instance information from arbitrary viewpoints. To achieve panoptic 3D scene reconstruction from sequential RGB-D videos, we propose an online Spatial-Temporal Lifting (STL) module that transfers 2D panoptic predictions from vision models into 3D Gaussian representations. This STL module addresses the challenges of label noise and inconsistencies in 2D predictions by refining the pseudo labels across multi-view inputs, creating a coherent 3D representation that enhances segmentation accuracy. Our experiments show that PanoSLAM outperforms recent semantic SLAM methods in both mapping and tracking accuracy. For the first time, it achieves panoptic 3D reconstruction of open-world environments directly from the RGB-D video. (https://github.com/runnanchen/PanoSLAM)
- Abstract(参考訳): ロボット工学や拡張現実の応用には、シーケンシャルなビデオデータから幾何学的、セマンティック、インスタンス情報を3Dシーンで理解することが不可欠である。
しかし、既存のSLAM法は一般に幾何学的あるいは意味的再構成に重点を置いている。
本稿では,幾何学的再構成,3Dセマンティックセグメンテーション,および3Dインスタンスセグメンテーションを統合フレームワークに組み込む最初のSLAMシステムであるPanoSLAMを紹介する。
提案手法は, 任意の視点から深度, 色, セマンティック, インスタンス情報の効率的なレンダリングを可能にするために, いくつかの重要なコンポーネントで修正された3次元ガウススプラッティングに基づいている。
連続RGB-Dビデオからパノプティカル3Dシーンを再現するために,視覚モデルから3次元ガウス表現へ2次元パノプティカル予測を転送するSTL(Spatial-Temporal Lifting)モジュールを提案する。
このSTLモジュールは、複数ビュー入力にまたがって擬似ラベルを精細化し、セグメンテーション精度を高めるコヒーレントな3D表現を作成することにより、2次元予測におけるラベルノイズと不整合の課題に対処する。
実験の結果,PanoSLAMはマッピングとトラッキングの精度において,最近の意味的SLAM法よりも優れていることがわかった。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
(https://github.com/runnanchen/PanoSLAM)
関連論文リスト
- SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos [32.6924827171619]
SLAM3Rは、リアルタイムかつ高品質な高密度3D再構成のための、新規で効果的な単分子式RGB SLAMシステムである。
従来のポーズ最適化方式とは異なり、SLAM3Rは各ウィンドウのRGB画像から直接3Dポイントマップを回帰する。
SLAM3Rは、20FPS以上のリアルタイム性能を維持しながら、最先端の復元精度と完全性を達成することを示す実験が一貫して行われている。
論文 参考訳(メタデータ) (2024-12-12T16:08:03Z) - DGD: Dynamic 3D Gaussians Distillation [14.7298711927857]
単一の単眼映像を入力として,動的3次元セマンティックラディアンス場を学習する作業に取り組む。
我々の学習したセマンティック・ラディアンス・フィールドは、動的3Dシーンの色と幾何学的性質だけでなく、ポイントごとのセマンティクスをキャプチャする。
動的3Dシーンの外観と意味を統一した3D表現であるDGDを提案する。
論文 参考訳(メタデータ) (2024-05-29T17:52:22Z) - Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians [87.48403838439391]
3D Splattingは、RGBのみの高密度SLAMの幾何学と外観の強力な表現として登場した。
本稿では,高密度な3次元ガウス写像表現を持つRGBのみのSLAMシステムを提案する。
Replica、TUM-RGBD、ScanNetのデータセットに対する実験は、グローバルに最適化された3Dガウスの有効性を示している。
論文 参考訳(メタデータ) (2024-05-26T12:26:54Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Gaussian Splatting SLAM [16.3858380078553]
単分子SLAMにおける3次元ガウス散乱の最初の応用について述べる。
我々の方法は3fpsで動作し、正確な追跡、マッピング、高品質なレンダリングに必要な表現を統一する。
ライブカメラから高忠実度で連続的に3Dシーンを再構築するためには、いくつかの革新が必要である。
論文 参考訳(メタデータ) (2023-12-11T18:19:04Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。