論文の概要: Q-SLAM: Quadric Representations for Monocular SLAM
- arxiv url: http://arxiv.org/abs/2403.08125v2
- Date: Tue, 19 Nov 2024 19:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:42.527444
- Title: Q-SLAM: Quadric Representations for Monocular SLAM
- Title(参考訳): Q-SLAM: 単分子SLAMのための擬似表現
- Authors: Chensheng Peng, Chenfeng Xu, Yue Wang, Mingyu Ding, Heng Yang, Masayoshi Tomizuka, Kurt Keutzer, Marco Pavone, Wei Zhan,
- Abstract要約: 四角形のレンズを通して体積表現を再現する。
我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。
本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
- 参考スコア(独自算出の注目度): 85.82697759049388
- License:
- Abstract: In this paper, we reimagine volumetric representations through the lens of quadrics. We posit that rigid scene components can be effectively decomposed into quadric surfaces. Leveraging this assumption, we reshape the volumetric representations with million of cubes by several quadric planes, which results in more accurate and efficient modeling of 3D scenes in SLAM contexts. First, we use the quadric assumption to rectify noisy depth estimations from RGB inputs. This step significantly improves depth estimation accuracy, and allows us to efficiently sample ray points around quadric planes instead of the entire volume space in previous NeRF-SLAM systems. Second, we introduce a novel quadric-decomposed transformer to aggregate information across quadrics. The quadric semantics are not only explicitly used for depth correction and scene decomposition, but also serve as an implicit supervision signal for the mapping network. Through rigorous experimental evaluation, our method exhibits superior performance over other approaches relying on estimated depth, and achieves comparable accuracy to methods utilizing ground truth depth on both synthetic and real-world datasets.
- Abstract(参考訳): 本稿では,四角形のレンズを通して体積表現を再現する。
固いシーン成分を2次曲面に効果的に分解できると仮定する。
この仮定を応用して、数乗平面によって100万の立方体で体積表現を再構成し、SLAMコンテキストにおける3次元シーンをより正確かつ効率的にモデル化する。
まず,2次仮定を用いてRGB入力から雑音深度推定を補正する。
このステップにより,従来のNeRF-SLAMシステムでは,体積空間全体ではなく,2次元平面上の線点を効率よくサンプリングすることが可能となる。
第2に、二次情報を集約する新しい二次分解変換器を導入する。
二次意味論は、深度補正やシーン分解に明示的に使用されるだけでなく、マッピングネットワークの暗黙的な監視信号としても用いられる。
厳密な実験評価により,提案手法は推定深度に依存する他の手法よりも優れた性能を示し,合成データセットと実世界のデータセットの両方で基底真理深度を利用する手法に匹敵する精度を実現する。
関連論文リスト
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering [47.879695094904015]
そこで本研究では,地上ロボット軌道データセットのための新しいビューレンダリングアルゴリズムであるMode-GSを提案する。
提案手法は,既存の3次元ガウススプラッティングアルゴリズムの限界を克服する目的で,アンカー付きガウススプラッターを用いている。
提案手法は,PSNR,SSIM,LPIPSの計測値に基づいて,自由軌道パターンを持つ地上環境におけるレンダリング性能を向上する。
論文 参考訳(メタデータ) (2024-10-06T23:01:57Z) - Self-Evolving Depth-Supervised 3D Gaussian Splatting from Rendered Stereo Pairs [27.364205809607302]
3D Gaussian Splatting (GS) は、基礎となる3Dシーンの形状を正確に表現するのにかなり苦労している。
この制限に対処し、最適化プロセス全体を通して深度事前の統合を包括的に分析する。
この後者は、容易に利用できるステレオネットワークからの奥行きを動的に利用し、トレーニング中にGSモデル自身がレンダリングした仮想ステレオペアを処理し、一貫した自己改善を実現する。
論文 参考訳(メタデータ) (2024-09-11T17:59:58Z) - Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis [11.236094544193605]
従来の幾何学に基づくSLAMシステムは、密度の高い3D再構成機能を持たない。
本稿では,新しいビュー合成技術である3次元ガウススプラッティングを組み込んだリアルタイムRGB-D SLAMシステムを提案する。
論文 参考訳(メタデータ) (2024-08-10T21:23:08Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Multi-View Reconstruction using Signed Ray Distance Functions (SRDF) [22.75986869918975]
本稿では,体積の新たな形状表現に基づく新しい計算手法について検討する。
この表現に関連する形状エネルギーは、与えられたカラー画像の3次元形状を評価し、外観予測を必要としない。
実際には、カメラ線に沿った深さによってパラメータ化される符号付き距離に基づいて、暗黙の形状表現であるSRDFを提案する。
論文 参考訳(メタデータ) (2022-08-31T19:32:17Z) - Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文 参考訳(メタデータ) (2022-06-16T17:59:54Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Volume Rendering of Neural Implicit Surfaces [57.802056954935495]
本稿では,ニューラルボリュームレンダリングにおける幾何学的表現と再構成を改善することを目的とする。
体積密度を幾何学の関数としてモデル化することで実現する。
この新たな密度表現を挑戦的なシーンマルチビューデータセットに適用することで、高品質な幾何学的再構成を実現した。
論文 参考訳(メタデータ) (2021-06-22T20:23:16Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Geometric Correspondence Fields: Learned Differentiable Rendering for 3D
Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。
このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。
我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文 参考訳(メタデータ) (2020-07-17T12:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。