論文の概要: MonoEM-GS: Monocular Expectation-Maximization Gaussian Splatting SLAM
- arxiv url: http://arxiv.org/abs/2604.10593v1
- Date: Sun, 12 Apr 2026 11:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.124139
- Title: MonoEM-GS: Monocular Expectation-Maximization Gaussian Splatting SLAM
- Title(参考訳): MonoEM-GS: 単分子期待最大化ガウス平滑化SLAM
- Authors: Evgenii Kruzhkov, Sven Behnke,
- Abstract要約: MonoEM-GSは、幾何学的予測をグローバルなガウススプラッティング表現に統合する単分子マッピングパイプラインである。
7シーン, TUM RGB-D, ReplicaでMonoEM-GSを評価し, 最近のベースラインと比較した。
- 参考スコア(独自算出の注目度): 17.4778210092639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feed-forward geometric foundation models can infer dense point clouds and camera motion directly from RGB streams, providing priors for monocular SLAM. However, their predictions are often view-dependent and noisy: geometry can vary across viewpoints and under image transformations, and local metric properties may drift between frames. We present MonoEM-GS, a monocular mapping pipeline that integrates such geometric predictions into a global Gaussian Splatting representation while explicitly addressing these inconsistencies. MonoEM-GS couples Gaussian Splatting with an Expectation--Maximization formulation to stabilize geometry, and employs ICP-based alignment for monocular pose estimation. Beyond geometry, MonoEM-GS parameterizes Gaussians with multi-modal features, enabling in-place open-set segmentation and other downstream queries directly on the reconstructed map. We evaluate MonoEM-GS on 7-Scenes, TUM RGB-D and Replica, and compare against recent baselines.
- Abstract(参考訳): フィードフォワード幾何学的基礎モデルは、RGBストリームから直接高密度の点雲とカメラモーションを推測することができ、モノクロSLAMの先行を提供する。
幾何学は視点や画像変換によって様々であり、局所的な計量特性はフレーム間を漂うことがある。
このような幾何学的予測をグローバルなガウススプラッティング表現に統合したモノケプラーマッピングパイプラインであるMonoEM-GSを提案する。
MonoEM-GSはGaussian SplattingとPre expectation--Maximization Formulationを結合して幾何を安定化し、ICPベースのアライメントを用いて単分子ポーズ推定を行う。
幾何学以外にも、MonoEM-GSはガウシアンをマルチモーダルな特徴でパラメータ化し、インプレースでオープンセットセグメンテーションや他のダウンストリームクエリを再構成されたマップ上で直接実現している。
7シーン, TUM RGB-D, ReplicaでMonoEM-GSを評価し, 最近のベースラインと比較した。
関連論文リスト
- Real-Time Human Reconstruction and Animation using Feed-Forward Gaussian Splatting [15.927245773921287]
本稿では,人間の3次元再構成とリアルタイムアニメーションのためのフィードフォワードガウススプレイティングフレームワークを提案する。
このフレームワークは、マルチビューのRGBイメージとその関連するSMPL-Xのポーズを直接操作する。
我々は,THuman 2.1,AvatarReX,THuman 4.0データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2026-04-11T15:52:58Z) - Enhanced 3D Shape Analysis via Information Geometry [2.3490649790592935]
3次元の点雲は、コンピュータグラフィックス、フォトグラム、コンピュータビジョン、ロボット工学の応用に不可欠な、オブジェクトの高精度なデジタル表現を提供する。
本稿では,GMM(Gaussian Mixture Models)として分布する点雲を統計多様体上に表現することにより,3次元点雲形状解析のための情報幾何学的枠組みを提案する。
GMM の空間が統計多様体となることを証明し、理論上および下界を保証し、すべての GMM 比較に対して数値的安定性を確保するため、改良されたシンメトリー・コールバック・リブラー(MSKL)の発散を提案する。
論文 参考訳(メタデータ) (2025-12-18T06:01:44Z) - MCGS-SLAM: A Multi-Camera SLAM Framework Using Gaussian Splatting for High-Fidelity Mapping [52.99503784067417]
3次元ガウス平板上に構築した初のRGBベースのマルチカメラSLAMシステムMCGS-SLAM(3DGS)を提案する。
マルチカメラバンドル調整(MCBA)は、高密度の測光および幾何残差を介してポーズと深さを共同で洗練し、スケール整合モジュールはビューを横断する計量アライメントを強制する。
合成および実世界のデータセットの実験は、MCGS-SLAMが一貫して正確な軌道と光現実的再構成をもたらすことを示している。
論文 参考訳(メタデータ) (2025-09-17T17:27:53Z) - Monocular and Generalizable Gaussian Talking Head Animation [25.74590381431105]
単分子および一般化可能なガウス音声頭部アニメーション(MGGTalk)を紹介する。
MGGTalkはモノラルなデータセットを必要とし、パーソナライズされた再トレーニングをすることなく、未確認のIDに一般化する。
我々は,MGGTalkが従来の最先端手法を超越し,様々な指標において優れた性能を発揮することを実証する。
論文 参考訳(メタデータ) (2025-04-01T11:16:52Z) - MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [86.87464903285208]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。
任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。
実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z) - MGS-SLAM: Monocular Sparse Tracking and Gaussian Mapping with Depth Smooth Regularization [29.713650915551632]
本稿では,ガウススプラッティングに基づく濃密な視覚的局所化とマッピングのための新しいフレームワークを紹介する。
疎視度追跡と3次元ガウススプラッティングのシーン表現を初めて共同で最適化する。
ポーズ推定の精度は既存の手法や最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-05-10T04:42:21Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - Unified Representation of Geometric Primitives for Graph-SLAM
Optimization Using Decomposed Quadrics [12.096145632383418]
この研究は、高レベルの幾何学的プリミティブのパラメータ化問題に焦点を当てている。
まず、これらの幾何学的プリミティブの統一表現を、一貫した簡潔な定式化をもたらすエンフカドリックを用いて提示する。
シミュレーション実験では, 分解された定式化は, 基本パラメータ化よりも高い効率とロバスト性を有することが示された。
論文 参考訳(メタデータ) (2021-08-20T01:06:51Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。