論文の概要: Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics
- arxiv url: http://arxiv.org/abs/2211.10580v3
- Date: Wed, 12 Feb 2025 02:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 18:10:00.48476
- Title: Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics
- Title(参考訳): 正規変換器:ビジュアルセマンティックスにより強化されたLiDAR点から表面形状を抽出する
- Authors: Ancheng Lin, Jun Li, Yusheng Xiang, Wei Bian, Mukesh Prasad,
- Abstract要約: 本稿では,LiDARとカメラセンサから得られた3次元点雲と2次元カラー画像を利用して表面正規化を行うマルチモーダル手法を提案する。
本稿では,視覚的意味論と3次元幾何学的情報を巧みに融合した,トランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
交通シーンを模倣したシミュレーション3D環境から,提案モデルが学習可能であることが確認された。
- 参考スコア(独自算出の注目度): 7.507853813361308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality surface normal can help improve geometry estimation in problems faced by autonomous vehicles, such as collision avoidance and occlusion inference. While a considerable volume of literature focuses on densely scanned indoor scenarios, normal estimation during autonomous driving remains an intricate problem due to the sparse, non-uniform, and noisy nature of real-world LiDAR scans. In this paper, we introduce a multi-modal technique that leverages 3D point clouds and 2D colour images obtained from LiDAR and camera sensors for surface normal estimation. We present the Hybrid Geometric Transformer (HGT), a novel transformer-based neural network architecture that proficiently fuses visual semantic and 3D geometric information. Furthermore, we developed an effective learning strategy for the multi-modal data. Experimental results demonstrate the superior effectiveness of our information fusion approach compared to existing methods. It has also been verified that the proposed model can learn from a simulated 3D environment that mimics a traffic scene. The learned geometric knowledge is transferable and can be applied to real-world 3D scenes in the KITTI dataset. Further tasks built upon the estimated normal vectors in the KITTI dataset show that the proposed estimator has an advantage over existing methods.
- Abstract(参考訳): 高品質な表面正規化は、衝突回避や閉塞推論のような自動運転車が直面する問題における幾何推定を改善するのに役立つ。
膨大な量の文献が密集した屋内シナリオに焦点を当てているが、現実のLiDARスキャンのスパース、非均一、ノイズにより、自律走行中の正常な推定は複雑な問題のままである。
本稿では,LiDARとカメラセンサから得られた3次元点雲と2次元カラー画像を利用して表面正規化を行うマルチモーダル手法を提案する。
HGT(Hybrid Geometric Transformer)は,視覚的意味論と3次元幾何学的情報とを巧みに融合する,トランスフォーマーに基づくニューラルネットワークアーキテクチャである。
さらに,マルチモーダルデータに対する効果的な学習戦略を開発した。
実験により,既存手法と比較して情報融合手法の有効性が示された。
また,交通シーンを模倣したシミュレーション3D環境から,提案モデルが学習可能であることも確認されている。
学習された幾何学的知識は転送可能であり、KITTIデータセットの現実世界の3Dシーンに適用することができる。
KITTIデータセットにおける推定正規ベクトルに基づくさらなるタスクは、提案した推定器が既存の手法よりも有利であることを示している。
関連論文リスト
- EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - The Oxford Spires Dataset: Benchmarking Large-Scale LiDAR-Visual Localisation, Reconstruction and Radiance Field Methods [10.265865092323041]
本稿では,オックスフォードの有名なランドマーク周辺で収集された大規模マルチモーダルデータセットを紹介する。
また、ローカライゼーション、再構築、新規ビュー合成を含むタスクのベンチマークも作成する。
我々のデータセットとベンチマークは、放射場法とSLAMシステムのより良い統合を容易にすることを意図している。
論文 参考訳(メタデータ) (2024-11-15T19:43:24Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。
この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文 参考訳(メタデータ) (2024-03-15T14:35:05Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on
Dataset Mixtures with Uncalibrated Stereo Data [4.199844472131922]
GP$2$, 汎用および幾何保存型トレーニングスキームを単視点深度推定のために提案する。
GP$2$のトレーニングモデルでは,PCMに依存した手法よりも精度と速度が優れていることを示す。
また、SVDEモデルでは、幾何的完全データがトレーニングセットのマイナーな部分を含む場合でも、幾何学的に正しい深さを予測することができることを示す。
論文 参考訳(メタデータ) (2023-06-05T13:49:24Z) - 3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object
Detection on Edge for Intelligent Transportation System [28.55894241049706]
本稿では,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。
提案手法はベンチマークモデルよりも性能が大幅に向上する。
私たちのコードはオープンソースで公開されています。
論文 参考訳(メタデータ) (2022-11-07T10:11:48Z) - Large-Scale 3D Semantic Reconstruction for Automated Driving Vehicles
with Adaptive Truncated Signed Distance Function [9.414880946870916]
本稿では,LiDARとカメラセンサを用いた新しい3次元再構成と意味マッピングシステムを提案する。
Adaptive Truncated Functionは表面を暗黙的に記述するために導入され、異なるLiDAR点間隔を扱うことができる。
各三角形メッシュに対して最適なセマンティッククラスを推定するために,最適な画像パッチ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-02-28T15:11:25Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes [43.853000396885626]
サンプル3次元形状のシャープな幾何学的特徴を予測するための学習ベースフレームワークを提案する。
個々のパッチの結果を融合させることで、既存のデータ駆動方式では処理できない大きな3Dモデルを処理できる。
論文 参考訳(メタデータ) (2020-11-30T18:21:00Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z) - Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。
近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。
我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文 参考訳(メタデータ) (2020-09-25T20:06:13Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。