Fugu-MT 論文翻訳(概要): Q-SLAM: Quadric Representations for Monocular SLAM

論文の概要: Q-SLAM: Quadric Representations for Monocular SLAM

arxiv url: http://arxiv.org/abs/2403.08125v1
Date: Tue, 12 Mar 2024 23:27:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 16:22:43.498447
Title: Q-SLAM: Quadric Representations for Monocular SLAM
Title（参考訳）: Q-SLAM: 単分子SLAMのための擬似表現
Authors: Chensheng Peng, Chenfeng Xu, Yue Wang, Mingyu Ding, Heng Yang, Masayoshi Tomizuka, Kurt Keutzer, Marco Pavone, Wei Zhan
Abstract要約: モノクラーSLAMは、3Dジオメトリを正確にモデル化するという課題に長い間取り組んできた。ニューラルラジアンス場(NeRF)をベースとしたモノキュラーSLAMの最近の進歩は、将来性を示している。本稿では,2次形式のレンズを通して体積表現を再現する新しい手法を提案する。
参考スコア（独自算出の注目度）: 89.05457684629621
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monocular SLAM has long grappled with the challenge of accurately modeling 3D geometries. Recent advances in Neural Radiance Fields (NeRF)-based monocular SLAM have shown promise, yet these methods typically focus on novel view synthesis rather than precise 3D geometry modeling. This focus results in a significant disconnect between NeRF applications, i.e., novel-view synthesis and the requirements of SLAM. We identify that the gap results from the volumetric representations used in NeRF, which are often dense and noisy. In this study, we propose a novel approach that reimagines volumetric representations through the lens of quadric forms. We posit that most scene components can be effectively represented as quadric planes. Leveraging this assumption, we reshape the volumetric representations with million of cubes by several quadric planes, which leads to more accurate and efficient modeling of 3D scenes in SLAM contexts. Our method involves two key steps: First, we use the quadric assumption to enhance coarse depth estimations obtained from tracking modules, e.g., Droid-SLAM. This step alone significantly improves depth estimation accuracy. Second, in the subsequent mapping phase, we diverge from previous NeRF-based SLAM methods that distribute sampling points across the entire volume space. Instead, we concentrate sampling points around quadric planes and aggregate them using a novel quadric-decomposed Transformer. Additionally, we introduce an end-to-end joint optimization strategy that synchronizes pose estimation with 3D reconstruction.
Abstract（参考訳）: モノクラーSLAMは、3Dジオメトリを正確にモデル化するという課題に長い間取り組んできた。ニューラルラジアンス場(NeRF)をベースとした単分子SLAMの最近の進歩は、将来性を示しているが、これらの手法は通常、正確な3次元幾何学モデリングではなく、新しいビュー合成に焦点を当てている。この焦点は、NeRFアプリケーション、すなわち新規ビュー合成とSLAMの要求を著しく切り離す結果となる。このギャップは、しばしば密度が高くノイズの多いNeRFで使用される体積表現から生じる。本研究では,2次形状のレンズを通して体積表現を再現する新しい手法を提案する。ほとんどのシーン成分は2次平面として効果的に表現できると仮定する。この仮定を応用して、数乗平面によって100万の立方体で体積表現を再構成し、SLAMコンテキストにおける3Dシーンをより正確かつ効率的にモデル化する。まず,追従モジュールから得られた粗い深さ推定(Droid-SLAM)を向上させるために,2次仮定を用いる。このステップだけで、深さ推定精度が大幅に向上する。第2に、その後のマッピングフェーズにおいて、ボリューム空間全体にわたってサンプリングポイントを分散する従来のNeRFベースのSLAM法から逸脱する。代わりに、二次平面の周りのサンプリング点を集中させ、新しい二次分解変換器を用いてそれらを集約する。さらに、ポーズ推定と3次元再構成を同期するエンドツーエンドのジョイント最適化戦略を導入する。

関連論文リスト

Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文参考訳（メタデータ） (2025-08-06T16:16:58Z)
LinPrim: Linear Primitives for Differentiable Volumetric Rendering [53.780682194322225]
線形プリミティブに基づく2つの新しいシーン表現を導入する。我々はGPU上で効率的に動作する異なるオクタライザを提案する。我々は最先端の手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2025-01-27T18:49:38Z)
PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文参考訳（メタデータ） (2024-10-29T15:28:15Z)
Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering [47.879695094904015]
そこで本研究では,地上ロボット軌道データセットのための新しいビューレンダリングアルゴリズムであるMode-GSを提案する。提案手法は,既存の3次元ガウススプラッティングアルゴリズムの限界を克服する目的で,アンカー付きガウススプラッターを用いている。提案手法は,PSNR,SSIM,LPIPSの計測値に基づいて,自由軌道パターンを持つ地上環境におけるレンダリング性能を向上する。
論文参考訳（メタデータ） (2024-10-06T23:01:57Z)
Self-Evolving Depth-Supervised 3D Gaussian Splatting from Rendered Stereo Pairs [27.364205809607302]
3D Gaussian Splatting (GS) は、基礎となる3Dシーンの形状を正確に表現するのにかなり苦労している。この制限に対処し、最適化プロセス全体を通して深度事前の統合を包括的に分析する。この後者は、容易に利用できるステレオネットワークからの奥行きを動的に利用し、トレーニング中にGSモデル自身がレンダリングした仮想ステレオペアを処理し、一貫した自己改善を実現する。
論文参考訳（メタデータ） (2024-09-11T17:59:58Z)
Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis [11.236094544193605]
従来の幾何学に基づくSLAMシステムは、密度の高い3D再構成機能を持たない。本稿では,新しいビュー合成技術である3次元ガウススプラッティングを組み込んだリアルタイムRGB-D SLAMシステムを提案する。
論文参考訳（メタデータ） (2024-08-10T21:23:08Z)
ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文参考訳（メタデータ） (2023-08-17T14:52:11Z)
Multi-View Reconstruction using Signed Ray Distance Functions (SRDF) [22.75986869918975]
本稿では,体積の新たな形状表現に基づく新しい計算手法について検討する。この表現に関連する形状エネルギーは、与えられたカラー画像の3次元形状を評価し、外観予測を必要としない。実際には、カメラ線に沿った深さによってパラメータ化される符号付き距離に基づいて、暗黙の形状表現であるSRDFを提案する。
論文参考訳（メタデータ） (2022-08-31T19:32:17Z)
Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文参考訳（メタデータ） (2022-06-16T17:59:54Z)
3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文参考訳（メタデータ） (2021-12-01T00:52:42Z)
Volume Rendering of Neural Implicit Surfaces [57.802056954935495]
本稿では,ニューラルボリュームレンダリングにおける幾何学的表現と再構成を改善することを目的とする。体積密度を幾何学の関数としてモデル化することで実現する。この新たな密度表現を挑戦的なシーンマルチビューデータセットに適用することで、高品質な幾何学的再構成を実現した。
論文参考訳（メタデータ） (2021-06-22T20:23:16Z)
Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。 The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文参考訳（メタデータ） (2021-03-07T00:08:21Z)
Geometric Correspondence Fields: Learned Differentiable Rendering for 3D Pose Refinement in the Wild [96.09941542587865]
野生の任意のカテゴリのオブジェクトに対する微分可能レンダリングに基づく新しい3次元ポーズ精細化手法を提案する。このようにして、3DモデルとRGB画像のオブジェクトを正確に整列し、3Dポーズ推定を大幅に改善する。我々は、Pix3Dデータセットの挑戦に対するアプローチを評価し、複数のメトリクスにおける最先端の精錬手法と比較して、最大55%の改善を実現した。
論文参考訳（メタデータ） (2020-07-17T12:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。