論文の概要: Q-SLAM: Quadric Representations for Monocular SLAM
- arxiv url: http://arxiv.org/abs/2403.08125v1
- Date: Tue, 12 Mar 2024 23:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:22:43.498447
- Title: Q-SLAM: Quadric Representations for Monocular SLAM
- Title(参考訳): Q-SLAM: 単分子SLAMのための擬似表現
- Authors: Chensheng Peng, Chenfeng Xu, Yue Wang, Mingyu Ding, Heng Yang,
Masayoshi Tomizuka, Kurt Keutzer, Marco Pavone, Wei Zhan
- Abstract要約: モノクラーSLAMは、3Dジオメトリを正確にモデル化するという課題に長い間取り組んできた。
ニューラルラジアンス場(NeRF)をベースとしたモノキュラーSLAMの最近の進歩は、将来性を示している。
本稿では,2次形式のレンズを通して体積表現を再現する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 89.05457684629621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular SLAM has long grappled with the challenge of accurately modeling 3D
geometries. Recent advances in Neural Radiance Fields (NeRF)-based monocular
SLAM have shown promise, yet these methods typically focus on novel view
synthesis rather than precise 3D geometry modeling. This focus results in a
significant disconnect between NeRF applications, i.e., novel-view synthesis
and the requirements of SLAM. We identify that the gap results from the
volumetric representations used in NeRF, which are often dense and noisy. In
this study, we propose a novel approach that reimagines volumetric
representations through the lens of quadric forms. We posit that most scene
components can be effectively represented as quadric planes. Leveraging this
assumption, we reshape the volumetric representations with million of cubes by
several quadric planes, which leads to more accurate and efficient modeling of
3D scenes in SLAM contexts. Our method involves two key steps: First, we use
the quadric assumption to enhance coarse depth estimations obtained from
tracking modules, e.g., Droid-SLAM. This step alone significantly improves
depth estimation accuracy. Second, in the subsequent mapping phase, we diverge
from previous NeRF-based SLAM methods that distribute sampling points across
the entire volume space. Instead, we concentrate sampling points around quadric
planes and aggregate them using a novel quadric-decomposed Transformer.
Additionally, we introduce an end-to-end joint optimization strategy that
synchronizes pose estimation with 3D reconstruction.
- Abstract(参考訳): モノクラーSLAMは、3Dジオメトリを正確にモデル化するという課題に長い間取り組んできた。
ニューラルラジアンス場(NeRF)をベースとした単分子SLAMの最近の進歩は、将来性を示しているが、これらの手法は通常、正確な3次元幾何学モデリングではなく、新しいビュー合成に焦点を当てている。
この焦点は、NeRFアプリケーション、すなわち新規ビュー合成とSLAMの要求を著しく切り離す結果となる。
このギャップは、しばしば密度が高くノイズの多いNeRFで使用される体積表現から生じる。
本研究では,2次形状のレンズを通して体積表現を再現する新しい手法を提案する。
ほとんどのシーン成分は2次平面として効果的に表現できると仮定する。
この仮定を応用して、数乗平面によって100万の立方体で体積表現を再構成し、SLAMコンテキストにおける3Dシーンをより正確かつ効率的にモデル化する。
まず,追従モジュールから得られた粗い深さ推定(Droid-SLAM)を向上させるために,2次仮定を用いる。
このステップだけで、深さ推定精度が大幅に向上する。
第2に、その後のマッピングフェーズにおいて、ボリューム空間全体にわたってサンプリングポイントを分散する従来のNeRFベースのSLAM法から逸脱する。
代わりに、二次平面の周りのサンプリング点を集中させ、新しい二次分解変換器を用いてそれらを集約する。
さらに、ポーズ推定と3次元再構成を同期するエンドツーエンドのジョイント最適化戦略を導入する。
関連論文リスト
- MoD-SLAM: Monocular Dense Mapping for Unbounded 3D Scene Reconstruction [2.3630527334737104]
MoD-SLAMは、非有界シーンにおけるリアルタイムな3次元再構成を可能にする、最初のモノクラーNeRFを用いた高密度マッピング法である。
追跡処理にロバストな深度損失項を導入することにより,大規模シーンにおけるより正確なポーズ推定を実現する。
2つの標準データセットを用いた実験により, MoD-SLAMは競争性能を向上し, 3次元再構成の精度を最大30%, 15%向上した。
論文 参考訳(メタデータ) (2024-02-06T07:07:33Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [54.56928482110888]
本稿では,まず3次元ガウス表現を同時局所化・マッピングシステムで利用するtextbfGS-SLAM$を紹介する。
提案手法では,地図の最適化とRGB-D再レンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - ESLAM: Efficient Dense SLAM System Based on Hybrid Representation of
Signed Distance Fields [2.0625936401496237]
ESLAMは、未知のカメラポーズでRGB-Dフレームを読み出し、シーン表現を漸進的に再構築する。
ESLAMは3次元再構成の精度を向上し、最先端の高密度視覚SLAM法のカメラローカライゼーションを50%以上向上する。
論文 参考訳(メタデータ) (2022-11-21T18:25:14Z) - Learning Neural Radiance Fields from Multi-View Geometry [1.1011268090482573]
画像に基づく3次元再構成のために,多視点幾何アルゴリズムとニューラルレージアンス場(NeRF)を組み合わせたMVG-NeRF(MVG-NeRF)というフレームワークを提案する。
NeRFは暗黙の3D表現の分野に革命をもたらした。
論文 参考訳(メタデータ) (2022-10-24T08:53:35Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - A Model for Multi-View Residual Covariances based on Perspective
Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。
我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文 参考訳(メタデータ) (2022-02-01T21:21:56Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - Volume Rendering of Neural Implicit Surfaces [57.802056954935495]
本稿では,ニューラルボリュームレンダリングにおける幾何学的表現と再構成を改善することを目的とする。
体積密度を幾何学の関数としてモデル化することで実現する。
この新たな密度表現を挑戦的なシーンマルチビューデータセットに適用することで、高品質な幾何学的再構成を実現した。
論文 参考訳(メタデータ) (2021-06-22T20:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。