論文の概要: PG-SLAM: Photo-realistic and Geometry-aware RGB-D SLAM in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2411.15800v1
- Date: Sun, 24 Nov 2024 12:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:07.405322
- Title: PG-SLAM: Photo-realistic and Geometry-aware RGB-D SLAM in Dynamic Environments
- Title(参考訳): PG-SLAM:動的環境における光現実性と幾何学的RGB-D SLAM
- Authors: Haoang Li, Xiangqi Meng, Xingxing Zuo, Zhe Liu, Hesheng Wang, Daniel Cremers,
- Abstract要約: ガウススプラッティングを拡張した写真リアリスティックかつ幾何学的RGB-D SLAM法を提案する。
本手法は,1)非剛体人や剛体物を含む動的前景のマッピング,2)静的背景の再構築,3)カメラのローカライズを行うための3つの主要モジュールから構成される。
実世界の様々なデータセットに対する実験により、カメラのローカライゼーションとシーン表現の観点から、我々の手法が最先端のアプローチより優れていることが示された。
- 参考スコア(独自算出の注目度): 49.38692556283867
- License:
- Abstract: Simultaneous localization and mapping (SLAM) has achieved impressive performance in static environments. However, SLAM in dynamic environments remains an open question. Many methods directly filter out dynamic objects, resulting in incomplete scene reconstruction and limited accuracy of camera localization. The other works express dynamic objects by point clouds, sparse joints, or coarse meshes, which fails to provide a photo-realistic representation. To overcome the above limitations, we propose a photo-realistic and geometry-aware RGB-D SLAM method by extending Gaussian splatting. Our method is composed of three main modules to 1) map the dynamic foreground including non-rigid humans and rigid items, 2) reconstruct the static background, and 3) localize the camera. To map the foreground, we focus on modeling the deformations and/or motions. We consider the shape priors of humans and exploit geometric and appearance constraints of humans and items. For background mapping, we design an optimization strategy between neighboring local maps by integrating appearance constraint into geometric alignment. As to camera localization, we leverage both static background and dynamic foreground to increase the observations for noise compensation. We explore the geometric and appearance constraints by associating 3D Gaussians with 2D optical flows and pixel patches. Experiments on various real-world datasets demonstrate that our method outperforms state-of-the-art approaches in terms of camera localization and scene representation. Source codes will be publicly available upon paper acceptance.
- Abstract(参考訳): 静的環境において、同時ローカライゼーションとマッピング(SLAM)は印象的な性能を達成した。
しかし、動的環境におけるSLAMは依然として未解決の問題である。
多くの手法が動的オブジェクトを直接フィルタリングし、不完全なシーン再構成とカメラのローカライゼーションの精度が制限される。
もうひとつは、ポイントクラウド、スパースジョイント、粗いメッシュによる動的オブジェクトの表現で、フォトリアリスティックな表現は提供できない。
上記の制約を克服するため,ガウススプラッティングを拡張した写真リアリスティックかつ幾何学的RGB-D SLAM法を提案する。
提案手法は3つの主モジュールから構成される。
1)非剛体人間や固形物を含む動的前景をマッピングする。
2)静的な背景を再構築し、
3)カメラをローカライズする。
前景をマッピングするために、変形や動きをモデル化することに焦点を当てる。
我々は、人間の形状の先行を考慮し、人やアイテムの幾何学的制約と外観的制約を利用する。
背景マッピングでは,外観制約を幾何学的アライメントに統合することにより,周辺地域の地図間の最適化戦略を設計する。
カメラのローカライゼーションについては,静的背景と動的前景の両方を活用し,ノイズ補償のための観測量を増加させる。
我々は3次元ガウスと2次元光学フローと画素パッチを関連付けることで幾何学的制約と外観的制約を探索する。
実世界の様々なデータセットに対する実験により、カメラのローカライゼーションとシーン表現の観点から、我々の手法が最先端のアプローチより優れていることが示された。
ソースコードは、論文の受理時に公開される。
関連論文リスト
- 3D Object Manipulation in a Single Image using Generative Models [30.241857090353864]
拡散モデルの生成力と正確な幾何学的制御を統合する新しいフレームワークである textbfOMG3D を紹介する。
筆者らのフレームワークはまず2Dオブジェクトを3Dに変換し,幾何学レベルでのユーザ指向の修正やライフライクな動作を可能にする。
注目すべきなのは、これらのステップはすべて、NVIDIA 3090を使って行うことができることだ。
論文 参考訳(メタデータ) (2025-01-22T15:06:30Z) - PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - GSGTrack: Gaussian Splatting-Guided Object Pose Tracking from RGB Videos [18.90495041083675]
本稿では,新しいRGBベースのポーズトラッキングフレームワークであるGSGTrackを紹介する。
トラッキング中のノイズに過度に敏感な画素ワイド損失の問題に対処するために,物体のシルエット損失を提案する。
OnePoseとHO3Dの実験では、6DoFのポーズトラッキングとオブジェクト再構成の両方においてGSGTrackの有効性が示されている。
論文 参考訳(メタデータ) (2024-12-03T08:38:44Z) - DynSUP: Dynamic Gaussian Splatting from An Unposed Image Pair [41.78277294238276]
本稿では,ガウスアンを動的環境に適合させるために,事前のポーズを伴わずに2つの画像しか利用できない手法を提案する。
この戦略は、ダイナミックシーンを断片的に剛性成分に分解し、ダイナミックオブジェクトのカメラのポーズと動きを共同で推定する。
合成と実世界の両方のデータセットに対する実験により、我々の手法は最先端のアプローチを大きく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-01T15:25:33Z) - V3D-SLAM: Robust RGB-D SLAM in Dynamic Environments with 3D Semantic Geometry Voting [1.3493547928462395]
動体とカメラのポーズの相関関係から,高度にダイナミックな環境下での同時位置決めとマッピング(SLAM)は困難である。
2つの軽量再評価段階を経て移動物体を除去するロバストな手法 V3D-SLAM を提案する。
TUM RGB-Dベンチマーク実験により,直近のSLAM法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-10-15T21:08:08Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Towards High-Fidelity Single-view Holistic Reconstruction of Indoor
Scenes [50.317223783035075]
単視点画像から総合的な3次元屋内シーンを再構築するための新しい枠組みを提案する。
詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。
私たちのコードとモデルは公開されます。
論文 参考訳(メタデータ) (2022-07-18T14:54:57Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。