論文の概要: Tri-Perspective View Decomposition for Geometry-Aware Depth Completion
- arxiv url: http://arxiv.org/abs/2403.15008v1
- Date: Fri, 22 Mar 2024 07:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:18:01.773405
- Title: Tri-Perspective View Decomposition for Geometry-Aware Depth Completion
- Title(参考訳): 幾何学的深度補正のための3視点分解法
- Authors: Zhiqiang Yan, Yuankai Lin, Kun Wang, Yupeng Zheng, Yufei Wang, Zhenyu Zhang, Jun Li, Jian Yang,
- Abstract要約: Tri-Perspective View Decomposition (TPVD)は、3D幾何学を明示的にモデル化できる新しいフレームワークである。
TPVDは元の点雲を3つの2Dビューに分解する。
TPVDは、KITTI、NYUv2、SUN RGBDの既存の手法より優れている。
- 参考スコア(独自算出の注目度): 24.98850285904668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth completion is a vital task for autonomous driving, as it involves reconstructing the precise 3D geometry of a scene from sparse and noisy depth measurements. However, most existing methods either rely only on 2D depth representations or directly incorporate raw 3D point clouds for compensation, which are still insufficient to capture the fine-grained 3D geometry of the scene. To address this challenge, we introduce Tri-Perspective view Decomposition (TPVD), a novel framework that can explicitly model 3D geometry. In particular, (1) TPVD ingeniously decomposes the original point cloud into three 2D views, one of which corresponds to the sparse depth input. (2) We design TPV Fusion to update the 2D TPV features through recurrent 2D-3D-2D aggregation, where a Distance-Aware Spherical Convolution (DASC) is applied. (3) By adaptively choosing TPV affinitive neighbors, the newly proposed Geometric Spatial Propagation Network (GSPN) further improves the geometric consistency. As a result, our TPVD outperforms existing methods on KITTI, NYUv2, and SUN RGBD. Furthermore, we build a novel depth completion dataset named TOFDC, which is acquired by the time-of-flight (TOF) sensor and the color camera on smartphones. Project page: https://yanzq95.github.io/projectpage/TOFDC/index.html
- Abstract(参考訳): 深さの完成は自動運転にとって重要な課題であり、スパースとノイズの深さの測定からシーンの正確な3次元形状を再構築する。
しかし、既存のほとんどの手法は2次元の深さ表現にのみ依存するか、補償のために生の3次元点の雲を直接組み込むかのいずれかであり、シーンの微細な3次元形状を捉えるのにはまだ不十分である。
この課題に対処するために,3次元幾何学を明示的にモデル化できる新しいフレームワークであるTri-Perspective View Decomposition (TPVD)を導入する。
特に、(1)TPVDは、原点雲を3つの2次元ビューに巧みに分解し、そのうちの1つはスパース深度入力に対応する。
2) 距離認識球面畳み込み (DASC) を適用した2D-3D-2Dアグリゲーションによる2D TPV特徴の更新を行うため, TPV Fusion を設計した。
(3) 新たに提案した幾何空間伝搬ネットワーク(GSPN)は,TPV親和性近傍を適応的に選択することにより,幾何整合性をさらに向上する。
その結果,TPVDはKITTI,NYUv2,SUN RGBDの既存手法よりも優れていた。
さらに,TOFDC(Time-of-light)センサとスマートフォンのカラーカメラによって取得される新しい深度補完データセットを構築した。
プロジェクトページ: https://yanzq95.github.io/projectpage/TOFDC/index.html
関連論文リスト
- DeCoTR: Enhancing Depth Completion with 2D and 3D Attentions [41.55908366474901]
本研究では,2次元と3次元の両方の注意を生かし,高精度な深度補完を実現する手法を提案する。
提案手法であるDeCoTRを,確立した深度補完ベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-18T19:22:55Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - MVDD: Multi-View Depth Diffusion Models [34.60436841755035]
本稿では,複雑な3次元形状を2次元データ形式で表現する多視点深度モデルを提案する。
この表現を、高品質な高密度点雲を生成することができる拡散モデルMVDDと組み合わせる。
MVDDの3次元形状生成, 深度完了, 下流作業における3次元前処理の可能性について検討した。
論文 参考訳(メタデータ) (2023-12-08T07:16:09Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。