論文の概要: NF-SLAM: Effective, Normalizing Flow-supported Neural Field representations for object-level visual SLAM in automotive applications
- arxiv url: http://arxiv.org/abs/2503.11199v1
- Date: Fri, 14 Mar 2025 08:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:16.752767
- Title: NF-SLAM: Effective, Normalizing Flow-supported Neural Field representations for object-level visual SLAM in automotive applications
- Title(参考訳): NF-SLAM: 自動車応用における物体レベルの視覚的SLAMのための流れ支援ニューラルネットワーク表現の効果的・正規化
- Authors: Li Cui, Yang Ding, Richard Hartley, Zirui Xie, Laurent Kneip, Zhenghua Yu,
- Abstract要約: 暗黙的な符号付き距離関数による3次元形状を表現する自動車アプリケーションのための視覚のみのオブジェクトレベルSLAMフレームワークを提案する。
私たちの重要なイノベーションは、正規化フローネットワークによる標準神経表現の増強です。
新たに提案されたアーキテクチャは、スパースデータとノイズデータのみの存在下での大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 20.963261049295085
- License:
- Abstract: We propose a novel, vision-only object-level SLAM framework for automotive applications representing 3D shapes by implicit signed distance functions. Our key innovation consists of augmenting the standard neural representation by a normalizing flow network. As a result, achieving strong representation power on the specific class of road vehicles is made possible by compact networks with only 16-dimensional latent codes. Furthermore, the newly proposed architecture exhibits a significant performance improvement in the presence of only sparse and noisy data, which is demonstrated through comparative experiments on synthetic data. The module is embedded into the back-end of a stereo-vision based framework for joint, incremental shape optimization. The loss function is given by a combination of a sparse 3D point-based SDF loss, a sparse rendering loss, and a semantic mask-based silhouette-consistency term. We furthermore leverage semantic information to determine keypoint extraction density in the front-end. Finally, experimental results on real-world data reveal accurate and reliable performance comparable to alternative frameworks that make use of direct depth readings. The proposed method performs well with only sparse 3D points obtained from bundle adjustment, and eventually continues to deliver stable results even under exclusive use of the mask-consistency term.
- Abstract(参考訳): 暗黙的な符号付き距離関数による3次元形状を表現する自動車アプリケーションのための,視覚のみのオブジェクトレベルSLAMフレームワークを提案する。
私たちの重要なイノベーションは、正規化フローネットワークによる標準神経表現の増強です。
その結果、16次元の遅延符号しか持たないコンパクトネットワークにより、特定の種類の道路車両に強い表現力を実現することができる。
さらに,新たに提案したアーキテクチャは,合成データに対する比較実験により,スパースデータとノイズデータのみの存在下での大幅な性能向上を示す。
このモジュールは、ジョイントでインクリメンタルな形状最適化のためのステレオビジョンベースのフレームワークのバックエンドに埋め込まれている。
損失関数は、スパース3DポイントベースのSDF損失、スパースレンダリング損失、セマンティックマスクベースのシルエット一貫性項の組み合わせによって与えられる。
さらに、セマンティック情報を活用して、フロントエンドのキーポイント抽出密度を決定する。
最後に、実世界のデータに対する実験結果から、直接深度を読み取る他のフレームワークに匹敵する正確で信頼性の高いパフォーマンスが明らかになった。
提案手法は,バンドル調整から得られるスパース3D点のみと良好に動作し,マスク一貫性項を排他的に使用しても安定した結果が得られ続ける。
関連論文リスト
- RW-Net: Enhancing Few-Shot Point Cloud Classification with a Wavelet Transform Projection-based Network [6.305913808037513]
RW-Netは、RDE(Rate-Distortion Explanation)とウェーブレット変換を統合することで、上記の課題に対処するために設計された新しいフレームワークである。
入力データの低周波成分を強調することにより、ウェーブレット変換は3次元オブジェクトの基本的な幾何学的および構造的特性をキャプチャする。
その結果,本手法は最先端の性能を達成し,数ショットの学習シナリオにおいて,より優れた一般化とロバスト性を示すことが示された。
論文 参考訳(メタデータ) (2025-01-06T18:55:59Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - ClusteringSDF: Self-Organized Neural Implicit Surfaces for 3D Decomposition [32.99080359375706]
ClusteringSDFは、ニューラルな暗黙の表面表現を通して3次元のセグメンテーションと再構成を実現するための新しいアプローチである。
ScanNetとReplicaのデータセットから得られた挑戦的なシーンにおける実験結果から,ClusteringSDFが競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-21T17:59:16Z) - NEDS-SLAM: A Neural Explicit Dense Semantic SLAM Framework using 3D Gaussian Splatting [5.655341825527482]
NEDS-SLAMは3次元ガウス表現に基づく意味論的SLAMシステムである。
本研究では,事前学習したセグメンテーションヘッドからの誤推定の影響を低減するために,空間的に一貫性のある特徴融合モデルを提案する。
我々は,高次元意味的特徴をコンパクトな3次元ガウス表現に圧縮するために,軽量エンコーダデコーダを用いる。
論文 参考訳(メタデータ) (2024-03-18T11:31:03Z) - Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。