論文の概要: Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics
- arxiv url: http://arxiv.org/abs/2211.10580v3
- Date: Wed, 12 Feb 2025 02:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:11.802975
- Title: Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics
- Title(参考訳): 正規変換器:ビジュアルセマンティックスにより強化されたLiDAR点から表面形状を抽出する
- Authors: Ancheng Lin, Jun Li, Yusheng Xiang, Wei Bian, Mukesh Prasad,
- Abstract要約: 本稿では,LiDARとカメラセンサから得られた3次元点雲と2次元カラー画像を利用して表面正規化を行うマルチモーダル手法を提案する。
本稿では,視覚的意味論と3次元幾何学的情報を巧みに融合した,トランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
交通シーンを模倣したシミュレーション3D環境から,提案モデルが学習可能であることが確認された。
- 参考スコア(独自算出の注目度): 7.507853813361308
- License:
- Abstract: High-quality surface normal can help improve geometry estimation in problems faced by autonomous vehicles, such as collision avoidance and occlusion inference. While a considerable volume of literature focuses on densely scanned indoor scenarios, normal estimation during autonomous driving remains an intricate problem due to the sparse, non-uniform, and noisy nature of real-world LiDAR scans. In this paper, we introduce a multi-modal technique that leverages 3D point clouds and 2D colour images obtained from LiDAR and camera sensors for surface normal estimation. We present the Hybrid Geometric Transformer (HGT), a novel transformer-based neural network architecture that proficiently fuses visual semantic and 3D geometric information. Furthermore, we developed an effective learning strategy for the multi-modal data. Experimental results demonstrate the superior effectiveness of our information fusion approach compared to existing methods. It has also been verified that the proposed model can learn from a simulated 3D environment that mimics a traffic scene. The learned geometric knowledge is transferable and can be applied to real-world 3D scenes in the KITTI dataset. Further tasks built upon the estimated normal vectors in the KITTI dataset show that the proposed estimator has an advantage over existing methods.
- Abstract(参考訳): 高品質な表面正規化は、衝突回避や閉塞推論のような自動運転車が直面する問題における幾何推定を改善するのに役立つ。
膨大な量の文献が密集した屋内シナリオに焦点を当てているが、現実のLiDARスキャンのスパース、非均一、ノイズにより、自律走行中の正常な推定は複雑な問題のままである。
本稿では,LiDARとカメラセンサから得られた3次元点雲と2次元カラー画像を利用して表面正規化を行うマルチモーダル手法を提案する。
HGT(Hybrid Geometric Transformer)は,視覚的意味論と3次元幾何学的情報とを巧みに融合する,トランスフォーマーに基づくニューラルネットワークアーキテクチャである。
さらに,マルチモーダルデータに対する効果的な学習戦略を開発した。
実験により,既存手法と比較して情報融合手法の有効性が示された。
また,交通シーンを模倣したシミュレーション3D環境から,提案モデルが学習可能であることも確認されている。
学習された幾何学的知識は転送可能であり、KITTIデータセットの現実世界の3Dシーンに適用することができる。
KITTIデータセットにおける推定正規ベクトルに基づくさらなるタスクは、提案した推定器が既存の手法よりも有利であることを示している。
関連論文リスト
- The Oxford Spires Dataset: Benchmarking Large-Scale LiDAR-Visual Localisation, Reconstruction and Radiance Field Methods [10.265865092323041]
本稿では,オックスフォードの有名なランドマーク周辺で収集された大規模マルチモーダルデータセットを紹介する。
また、ローカライゼーション、再構築、新規ビュー合成を含むタスクのベンチマークも作成する。
我々のデータセットとベンチマークは、放射場法とSLAMシステムのより良い統合を容易にすることを意図している。
論文 参考訳(メタデータ) (2024-11-15T19:43:24Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - 3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object
Detection on Edge for Intelligent Transportation System [28.55894241049706]
本稿では,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。
提案手法はベンチマークモデルよりも性能が大幅に向上する。
私たちのコードはオープンソースで公開されています。
論文 参考訳(メタデータ) (2022-11-07T10:11:48Z) - Uncertainty Guided Policy for Active Robotic 3D Reconstruction using
Neural Radiance Fields [82.21033337949757]
本稿では,物体の暗黙のニューラル表現の各光線に沿ったカラーサンプルの重量分布のエントロピーを計算した線量不確実性推定器を提案する。
提案した推定器を用いた新しい視点から, 基礎となる3次元形状の不確かさを推測することが可能であることを示す。
ニューラルラディアンス場に基づく表現における線量不確実性によって導かれる次ベクター選択ポリシーを提案する。
論文 参考訳(メタデータ) (2022-09-17T21:28:57Z) - Large-Scale 3D Semantic Reconstruction for Automated Driving Vehicles
with Adaptive Truncated Signed Distance Function [9.414880946870916]
本稿では,LiDARとカメラセンサを用いた新しい3次元再構成と意味マッピングシステムを提案する。
Adaptive Truncated Functionは表面を暗黙的に記述するために導入され、異なるLiDAR点間隔を扱うことができる。
各三角形メッシュに対して最適なセマンティッククラスを推定するために,最適な画像パッチ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-02-28T15:11:25Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。