論文の概要: DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-Directional Structure Alignment
- arxiv url: http://arxiv.org/abs/2403.18274v3
- Date: Wed, 17 Jul 2024 05:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:19:21.783677
- Title: DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-Directional Structure Alignment
- Title(参考訳): DVLO:局所-Global特徴融合と双方向構造アライメントを用いた深部視覚-LiDARオドメトリー
- Authors: Jiuming Liu, Dong Zhuo, Zhiheng Feng, Siting Zhu, Chensheng Peng, Zhe Liu, Hesheng Wang,
- Abstract要約: 画像のピクセルは規則的で密度が高いが、LiDARポイントは非順序であり、スパースである。
本稿では,双方向構造アライメントを有するDVLO(ローカル・グローバル・フュージョン・ネットワーク)を提案する。
本手法は,KITTI odometry と FlyingThings3D シーンフローデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 11.78419764795351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information inside visual and LiDAR data is well complementary derived from the fine-grained texture of images and massive geometric information in point clouds. However, it remains challenging to explore effective visual-LiDAR fusion, mainly due to the intrinsic data structure inconsistency between two modalities: Image pixels are regular and dense, but LiDAR points are unordered and sparse. To address the problem, we propose a local-to-global fusion network (DVLO) with bi-directional structure alignment. To obtain locally fused features, we project points onto the image plane as cluster centers and cluster image pixels around each center. Image pixels are pre-organized as pseudo points for image-to-point structure alignment. Then, we convert points to pseudo images by cylindrical projection (point-to-image structure alignment) and perform adaptive global feature fusion between point features and local fused features. Our method achieves state-of-the-art performance on KITTI odometry and FlyingThings3D scene flow datasets compared to both single-modal and multi-modal methods. Codes are released at https://github.com/IRMVLab/DVLO.
- Abstract(参考訳): 視覚的およびLiDARデータ内の情報は、画像のきめ細かいテクスチャと点雲内の巨大な幾何学的情報からよく補完されている。
しかし,2つのモダリティ間の本質的なデータ構造の不整合が原因で,画像画素は正規で密度が高いが,LiDAR点は秩序がなく,疎いため,効果的な視覚-LiDAR融合の探索は依然として困難である。
この問題に対処するために,双方向構造アライメントを有するDVLO(Local-to-global fusion Network)を提案する。
局所的に融合した特徴を得るため,各中心の周囲にクラスタ・センターとクラスタ・イメージ・ピクセルとしてイメージ・プレーンに投影する。
画像画素は、画像間構造アライメントのための擬似点として予め構成される。
そこで我々は,点特徴と局所融合特徴との適応的大域的特徴融合を円柱投影(ポイント・ツー・イメージ構造アライメント)により実現し,擬似画像に変換する。
本手法は,KITTI odometryとFlyingThings3Dのシーンフローデータセットに対して,単一モーダル法とマルチモーダル法を比較して,最先端の性能を実現する。
コードはhttps://github.com/IRMVLab/DVLOで公開されている。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - SVDFormer: Complementing Point Cloud via Self-view Augmentation and
Self-structure Dual-generator [30.483163963846206]
本稿では,ポイントクラウド補完における2つの課題に対処するために,新たなネットワークSVDFormerを提案する。
我々はまず,複数視点深度画像情報を利用して不完全な自己形成を観測するセルフビューフュージョンネットワークを設計する。
次に,自己構造デュアルジェネレータ (Self-structure Dual-generator) と呼ばれる改良モジュールを導入する。
論文 参考訳(メタデータ) (2023-07-17T13:55:31Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR
Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。
このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。
この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文 参考訳(メタデータ) (2021-03-24T04:24:12Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。