Fugu-MT 論文翻訳(概要): Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics

論文の概要: Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics

arxiv url: http://arxiv.org/abs/2211.10580v1
Date: Sat, 19 Nov 2022 03:55:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 19:58:41.140125
Title: Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics
Title（参考訳）: 正規変換器:視覚意味論によるLiDAR点からの表面形状の抽出
Authors: Ancheng Lin, Jun Li
Abstract要約: 本稿では,3次元点雲と2次元カラー画像から正規分布を推定する手法を提案する。我々は,視覚的セマンティクスと3次元幾何データのハイブリッド情報を活用することを学ぶトランスフォーマーニューラルネットワークを開発した。
参考スコア（独自算出の注目度）: 6.516912796655748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-quality estimation of surface normal can help reduce ambiguity in many geometry understanding problems, such as collision avoidance and occlusion inference. This paper presents a technique for estimating the normal from 3D point clouds and 2D colour images. We have developed a transformer neural network that learns to utilise the hybrid information of visual semantic and 3D geometric data, as well as effective learning strategies. Compared to existing methods, the information fusion of the proposed method is more effective, which is supported by experiments. We have also built a simulation environment of outdoor traffic scenes in a 3D rendering engine to obtain annotated data to train the normal estimator. The model trained on synthetic data is tested on the real scenes in the KITTI dataset. And subsequent tasks built upon the estimated normal directions in the KITTI dataset show that the proposed estimator has advantage over existing methods.
Abstract（参考訳）: 表面ノーマルの高品質な推定は、衝突回避や咬合推定のような多くの幾何学的理解問題において曖昧さを減らすのに役立つ。本稿では,3次元点雲と2次元カラー画像から正規分布を推定する手法を提案する。本研究では,視覚意味と3次元幾何学データのハイブリッド情報と効果的な学習戦略を活用すべく,トランスフォーマーニューラルネットワークを開発した。既存の手法と比較して,提案手法の情報融合はより効果的であり,実験によって支援されている。また、3次元レンダリングエンジンに屋外交通シーンのシミュレーション環境を構築し、通常の推定器を訓練するための注釈付きデータを得た。合成データに基づいてトレーニングされたモデルは、KITTIデータセットの実際のシーンでテストされる。 KITTIデータセットの通常の方向を推定したタスクは、提案した推定器が既存の手法よりも優れていることを示す。

関連論文リスト

Deep Supervised LSTM for 3D morphology estimation from Multi-View RGB Images of Wheat Spikes [0.0]
二次元RGB画像から形態特性を推定することは固有の課題を示す。本稿では,2次元画像の体積推定のためのニューラルネットワーク手法を提案する。本モデルでは,6次元室内画像において平均絶対パーセンテージ誤差(MAPE)が6.46%に達する。
論文参考訳（メタデータ） (2025-06-22T15:02:18Z)
Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [4.196626042312499]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文参考訳（メタデータ） (2025-06-17T07:04:07Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
The Oxford Spires Dataset: Benchmarking Large-Scale LiDAR-Visual Localisation, Reconstruction and Radiance Field Methods [10.265865092323041]
本稿では,オックスフォードの有名なランドマーク周辺で収集された大規模マルチモーダルデータセットを紹介する。また、ローカライゼーション、再構築、新規ビュー合成を含むタスクのベンチマークも作成する。我々のデータセットとベンチマークは、放射場法とSLAMシステムのより良い統合を容易にすることを意図している。
論文参考訳（メタデータ） (2024-11-15T19:43:24Z)
LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文参考訳（メタデータ） (2024-03-15T14:35:05Z)
Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文参考訳（メタデータ） (2024-02-28T18:59:31Z)
Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on Dataset Mixtures with Uncalibrated Stereo Data [4.199844472131922]
GP$2$, 汎用および幾何保存型トレーニングスキームを単視点深度推定のために提案する。 GP$2$のトレーニングモデルでは,PCMに依存した手法よりも精度と速度が優れていることを示す。また、SVDEモデルでは、幾何的完全データがトレーニングセットのマイナーな部分を含む場合でも、幾何学的に正しい深さを予測することができることを示す。
論文参考訳（メタデータ） (2023-06-05T13:49:24Z)
3D Harmonic Loss: Towards Task-consistent and Time-friendly 3D Object Detection on Edge for Intelligent Transportation System [28.55894241049706]
本稿では,ポイントクラウドに基づく不整合予測を緩和する3次元高調波損失関数を提案する。提案手法はベンチマークモデルよりも性能が大幅に向上する。私たちのコードはオープンソースで公開されています。
論文参考訳（メタデータ） (2022-11-07T10:11:48Z)
Large-Scale 3D Semantic Reconstruction for Automated Driving Vehicles with Adaptive Truncated Signed Distance Function [9.414880946870916]
本稿では,LiDARとカメラセンサを用いた新しい3次元再構成と意味マッピングシステムを提案する。 Adaptive Truncated Functionは表面を暗黙的に記述するために導入され、異なるLiDAR点間隔を扱うことができる。各三角形メッシュに対して最適なセマンティッククラスを推定するために,最適な画像パッチ選択戦略を提案する。
論文参考訳（メタデータ） (2022-02-28T15:11:25Z)
Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文参考訳（メタデータ） (2021-12-14T13:14:24Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。 The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文参考訳（メタデータ） (2021-03-07T00:08:21Z)
DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes [43.853000396885626]
サンプル3次元形状のシャープな幾何学的特徴を予測するための学習ベースフレームワークを提案する。個々のパッチの結果を融合させることで、既存のデータ駆動方式では処理できない大きな3Dモデルを処理できる。
論文参考訳（メタデータ） (2020-11-30T18:21:00Z)
Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文参考訳（メタデータ） (2020-11-29T12:56:19Z)
3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文参考訳（メタデータ） (2020-09-30T17:12:35Z)
Towards General Purpose Geometry-Preserving Single-View Depth Estimation [1.9573380763700712]
単視点深度推定(SVDE)は、ARアプリケーション、3Dモデリング、ロボット工学におけるシーン理解において重要な役割を果たす。近年の研究では、成功するソリューションはトレーニングデータの多様性とボリュームに強く依存していることが示されている。我々の研究は、従来のデータセットとともに、このデータに基づいてトレーニングされたモデルが、正確なシーン形状を予測しながら精度を向上できることを示している。
論文参考訳（メタデータ） (2020-09-25T20:06:13Z)
Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-09T11:19:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。