論文の概要: Q-SLAM: Quadric Representations for Monocular SLAM
- arxiv url: http://arxiv.org/abs/2403.08125v1
- Date: Tue, 12 Mar 2024 23:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:22:43.498447
- Title: Q-SLAM: Quadric Representations for Monocular SLAM
- Title(参考訳): Q-SLAM: 単分子SLAMのための擬似表現
- Authors: Chensheng Peng, Chenfeng Xu, Yue Wang, Mingyu Ding, Heng Yang,
Masayoshi Tomizuka, Kurt Keutzer, Marco Pavone, Wei Zhan
- Abstract要約: モノクラーSLAMは、3Dジオメトリを正確にモデル化するという課題に長い間取り組んできた。
ニューラルラジアンス場(NeRF)をベースとしたモノキュラーSLAMの最近の進歩は、将来性を示している。
本稿では,2次形式のレンズを通して体積表現を再現する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 89.05457684629621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular SLAM has long grappled with the challenge of accurately modeling 3D
geometries. Recent advances in Neural Radiance Fields (NeRF)-based monocular
SLAM have shown promise, yet these methods typically focus on novel view
synthesis rather than precise 3D geometry modeling. This focus results in a
significant disconnect between NeRF applications, i.e., novel-view synthesis
and the requirements of SLAM. We identify that the gap results from the
volumetric representations used in NeRF, which are often dense and noisy. In
this study, we propose a novel approach that reimagines volumetric
representations through the lens of quadric forms. We posit that most scene
components can be effectively represented as quadric planes. Leveraging this
assumption, we reshape the volumetric representations with million of cubes by
several quadric planes, which leads to more accurate and efficient modeling of
3D scenes in SLAM contexts. Our method involves two key steps: First, we use
the quadric assumption to enhance coarse depth estimations obtained from
tracking modules, e.g., Droid-SLAM. This step alone significantly improves
depth estimation accuracy. Second, in the subsequent mapping phase, we diverge
from previous NeRF-based SLAM methods that distribute sampling points across
the entire volume space. Instead, we concentrate sampling points around quadric
planes and aggregate them using a novel quadric-decomposed Transformer.
Additionally, we introduce an end-to-end joint optimization strategy that
synchronizes pose estimation with 3D reconstruction.
- Abstract(参考訳): モノクラーSLAMは、3Dジオメトリを正確にモデル化するという課題に長い間取り組んできた。
ニューラルラジアンス場(NeRF)をベースとした単分子SLAMの最近の進歩は、将来性を示しているが、これらの手法は通常、正確な3次元幾何学モデリングではなく、新しいビュー合成に焦点を当てている。
この焦点は、NeRFアプリケーション、すなわち新規ビュー合成とSLAMの要求を著しく切り離す結果となる。
このギャップは、しばしば密度が高くノイズの多いNeRFで使用される体積表現から生じる。
本研究では,2次形状のレンズを通して体積表現を再現する新しい手法を提案する。
ほとんどのシーン成分は2次平面として効果的に表現できると仮定する。
この仮定を応用して、数乗平面によって100万の立方体で体積表現を再構成し、SLAMコンテキストにおける3Dシーンをより正確かつ効率的にモデル化する。
まず,追従モジュールから得られた粗い深さ推定(Droid-SLAM)を向上させるために,2次仮定を用いる。
このステップだけで、深さ推定精度が大幅に向上する。
第2に、その後のマッピングフェーズにおいて、ボリューム空間全体にわたってサンプリングポイントを分散する従来のNeRFベースのSLAM法から逸脱する。
代わりに、二次平面の周りのサンプリング点を集中させ、新しい二次分解変換器を用いてそれらを集約する。
さらに、ポーズ推定と3次元再構成を同期するエンドツーエンドのジョイント最適化戦略を導入する。
関連論文リスト
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering [47.879695094904015]
そこで本研究では,地上ロボット軌道データセットのための新しいビューレンダリングアルゴリズムであるMode-GSを提案する。
提案手法は,既存の3次元ガウススプラッティングアルゴリズムの限界を克服する目的で,アンカー付きガウススプラッターを用いている。
提案手法は,PSNR,SSIM,LPIPSの計測値に基づいて,自由軌道パターンを持つ地上環境におけるレンダリング性能を向上する。
論文 参考訳(メタデータ) (2024-10-06T23:01:57Z) - Self-Evolving Depth-Supervised 3D Gaussian Splatting from Rendered Stereo Pairs [27.364205809607302]
3D Gaussian Splatting (GS) は、基礎となる3Dシーンの形状を正確に表現するのにかなり苦労している。
この制限に対処し、最適化プロセス全体を通して深度事前の統合を包括的に分析する。
この後者は、容易に利用できるステレオネットワークからの奥行きを動的に利用し、トレーニング中にGSモデル自身がレンダリングした仮想ステレオペアを処理し、一貫した自己改善を実現する。
論文 参考訳(メタデータ) (2024-09-11T17:59:58Z) - Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis [11.236094544193605]
従来の幾何学に基づくSLAMシステムは、密度の高い3D再構成機能を持たない。
本稿では,新しいビュー合成技術である3次元ガウススプラッティングを組み込んだリアルタイムRGB-D SLAMシステムを提案する。
論文 参考訳(メタデータ) (2024-08-10T21:23:08Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Multi-View Reconstruction using Signed Ray Distance Functions (SRDF) [22.75986869918975]
本稿では,体積の新たな形状表現に基づく新しい計算手法について検討する。
この表現に関連する形状エネルギーは、与えられたカラー画像の3次元形状を評価し、外観予測を必要としない。
実際には、カメラ線に沿った深さによってパラメータ化される符号付き距離に基づいて、暗黙の形状表現であるSRDFを提案する。
論文 参考訳(メタデータ) (2022-08-31T19:32:17Z) - Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文 参考訳(メタデータ) (2022-06-16T17:59:54Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Volume Rendering of Neural Implicit Surfaces [57.802056954935495]
本稿では,ニューラルボリュームレンダリングにおける幾何学的表現と再構成を改善することを目的とする。
体積密度を幾何学の関数としてモデル化することで実現する。
この新たな密度表現を挑戦的なシーンマルチビューデータセットに適用することで、高品質な幾何学的再構成を実現した。
論文 参考訳(メタデータ) (2021-06-22T20:23:16Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。