論文の概要: Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching
- arxiv url: http://arxiv.org/abs/2312.04060v1
- Date: Thu, 7 Dec 2023 05:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:04:51.750888
- Title: Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching
- Title(参考訳): Voxel Point-to-Pixel Matchingによる画像とLiDAR点雲の微分登録
- Authors: Junsheng Zhou, Baorui Ma, Wenyuan Zhang, Yi Fang, Yu-Shen Liu,
Zhizhong Han
- Abstract要約: カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
- 参考スコア(独自算出の注目度): 58.10418136917358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modality registration between 2D images from cameras and 3D point
clouds from LiDARs is a crucial task in computer vision and robotic. Previous
methods estimate 2D-3D correspondences by matching point and pixel patterns
learned by neural networks, and use Perspective-n-Points (PnP) to estimate
rigid transformation during post-processing. However, these methods struggle to
map points and pixels to a shared latent space robustly since points and pixels
have very different characteristics with patterns learned in different manners
(MLP and CNN), and they also fail to construct supervision directly on the
transformation since the PnP is non-differentiable, which leads to unstable
registration results. To address these problems, we propose to learn a
structured cross-modality latent space to represent pixel features and 3D
features via a differentiable probabilistic PnP solver. Specifically, we design
a triplet network to learn VoxelPoint-to-Pixel matching, where we represent 3D
elements using both voxels and points to learn the cross-modality latent space
with pixels. We design both the voxel and pixel branch based on CNNs to operate
convolutions on voxels/pixels represented in grids, and integrate an additional
point branch to regain the information lost during voxelization. We train our
framework end-to-end by imposing supervisions directly on the predicted pose
distribution with a probabilistic PnP solver. To explore distinctive patterns
of cross-modality features, we design a novel loss with adaptive-weighted
optimization for cross-modality feature description. The experimental results
on KITTI and nuScenes datasets show significant improvements over the
state-of-the-art methods. The code and models are available at
https://github.com/junshengzhou/VP2P-Match.
- Abstract(参考訳): カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットにとって重要な課題である。
従来の手法では,2d-3d対応をニューラルネットワークで学習した点と画素パターンのマッチングにより推定し,pnpを用いて後処理中の剛性変換を推定した。
しかし、点と画素は異なるパターン(mlpとcnn)で学習されるパターンとは全く異なる特徴を持ち、pnpは非微分可能であり、不安定な登録結果をもたらすため、変換の監督を直接構築することができないため、これらの手法では、点と画素を共有潜在空間にロバストにマッピングするのに苦労している。
これらの問題に対処するために,異なる確率的PnPソルバを用いて,画素特徴と3次元特徴を表現するための構造付きクロスモーダル潜在空間の学習を提案する。
具体的には、VoxelPoint-to-Pixelマッチングを学習するために三重項ネットワークを設計し、ボクセルとポイントの両方を用いて3次元要素を表現し、画素でモジュラリティラテント空間を学習する。
グリッドに表現されたボクセル/ピクセルの畳み込みを操作するためにcnnに基づくボクセルとピクセルのブランチの両方を設計し、ボクセル化時に失われた情報を復元するために追加のポイントブランチを統合する。
我々は,確率論的PnPソルバを用いて,予測されたポーズ分布を直接監督することにより,エンドツーエンドのフレームワークを訓練する。
クロスモダリティ特徴の特徴的なパターンを探るため,クロスモダリティ特徴記述のための適応重み付き最適化による新しい損失をデザインする。
KITTIとnuScenesデータセットの実験結果は、最先端の手法よりも大幅に改善されている。
コードとモデルはhttps://github.com/junshengzhou/vp2p-matchで入手できる。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - P2-Net: Joint Description and Detection of Local Features for Pixel and
Point Matching [78.18641868402901]
この研究は、2D画像と3D点雲の微粒な対応を確立するための取り組みである。
画素領域と点領域の固有情報変動を緩和するために,新しい損失関数と組み合わせた超広帯域受信機構を設計した。
論文 参考訳(メタデータ) (2021-03-01T14:59:40Z) - Probabilistic Vehicle Reconstruction Using a Multi-Task CNN [0.0]
ステレオ画像からの形状認識型3D車両再構成のための確率論的アプローチを提案する。
具体的には、車両の向きと車両のキーポイントとワイヤフレームエッジの両方の確率分布を出力するCNNを訓練する。
本手法が最先端の結果を達成し、挑戦的なKITTIベンチマークで評価することを示した。
論文 参考訳(メタデータ) (2021-02-21T20:45:44Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。