論文の概要: Learning Optical Flow and Scene Flow with Bidirectional Camera-LiDAR
Fusion
- arxiv url: http://arxiv.org/abs/2303.12017v1
- Date: Tue, 21 Mar 2023 16:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:02:17.297362
- Title: Learning Optical Flow and Scene Flow with Bidirectional Camera-LiDAR
Fusion
- Title(参考訳): 双方向カメラ-LiDAR融合による光フローとシーンフローの学習
- Authors: Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Limin Wang
- Abstract要約: 同期した2Dデータと3Dデータから光フローとシーンフローを同時推定する問題について検討する。
従来の方法では、ジョイントタスクを独立したステージに分割する複雑なパイプラインを使用するか、アーリーフュージョンまたはレイトフュージョンの方法で2Dと3D情報を融合する。
本稿では,2次元および3次元の分岐からなり,各層に複数方向の融合接続を施した新しいエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.815745666810763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of jointly estimating the optical flow
and scene flow from synchronized 2D and 3D data. Previous methods either employ
a complex pipeline that splits the joint task into independent stages, or fuse
2D and 3D information in an ``early-fusion'' or ``late-fusion'' manner. Such
one-size-fits-all approaches suffer from a dilemma of failing to fully utilize
the characteristic of each modality or to maximize the inter-modality
complementarity. To address the problem, we propose a novel end-to-end
framework, which consists of 2D and 3D branches with multiple bidirectional
fusion connections between them in specific layers. Different from previous
work, we apply a point-based 3D branch to extract the LiDAR features, as it
preserves the geometric structure of point clouds. To fuse dense image features
and sparse point features, we propose a learnable operator named bidirectional
camera-LiDAR fusion module (Bi-CLFM). We instantiate two types of the
bidirectional fusion pipeline, one based on the pyramidal coarse-to-fine
architecture (dubbed CamLiPWC), and the other one based on the recurrent
all-pairs field transforms (dubbed CamLiRAFT). On FlyingThings3D, both CamLiPWC
and CamLiRAFT surpass all existing methods and achieve up to a 47.9\% reduction
in 3D end-point-error from the best published result. Our best-performing
model, CamLiRAFT, achieves an error of 4.26\% on the KITTI Scene Flow
benchmark, ranking 1st among all submissions with much fewer parameters.
Besides, our methods have strong generalization performance and the ability to
handle non-rigid motion. Code is available at
https://github.com/MCG-NJU/CamLiFlow.
- Abstract(参考訳): 本稿では,同期2次元データと3次元データから光の流れとシーンの流れを同時推定する問題について検討する。
従来の方法では、ジョイントタスクを独立したステージに分割する複雑なパイプラインを使うか、2Dと3D情報を `early-fusion' または `late-fusion' の方法で融合させる。
このような1つの大きさのアプローチは、各モダリティの特性を完全に活用したり、モダリティ間の相補性を最大限にするために失敗するジレンマに悩まされる。
そこで本研究では,複数の双方向融合接続を持つ2次元および3次元分岐からなる新しいエンドツーエンドフレームワークを提案する。
従来の研究と異なり、点雲の幾何学的構造を保存するため、LiDARの特徴を抽出するために点ベースの3Dブランチを適用する。
濃密な画像特徴とスパース点特徴を融合するために,双方向カメラ-LiDAR融合モジュール (Bi-CLFM) と呼ばれる学習可能な演算子を提案する。
二方向融合パイプラインの2つのタイプをインスタンス化する。1つはピラミッド型粗さから細かなアーキテクチャ(camlipwc)、もう1つは再帰的全ペア場変換(camliraft)に基づく。
FlyingThings3Dでは、CamLiPWCとCamLiRAFTが既存のすべての手法を上回り、3Dエンドポイントエラーを最高の結果から最大47.9%削減した。
私たちの最高のパフォーマンスモデルであるCamLiRAFTは、KITTI Scene Flowベンチマークで4.26\%のエラーを達成しています。
さらに,本手法は高い一般化性能と非剛性運動の処理能力を有する。
コードはhttps://github.com/MCG-NJU/CamLiFlowで入手できる。
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - CMDFusion: Bidirectional Fusion Network with Cross-modality Knowledge
Distillation for LIDAR Semantic Segmentation [44.44327357717908]
2D RGB画像と3D LIDAR点雲は、自動運転車の知覚システムに補完的な知識を提供する。
LIDARセマンティックセグメンテーションタスクのために、いくつかの2Dおよび3D融合法が検討されているが、それらは異なる問題に悩まされている。
本稿では,クロスモーダル知識蒸留(CMDFusion)を用いた双方向核融合ネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T04:24:12Z) - DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。
私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。
DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文 参考訳(メタデータ) (2023-06-28T16:07:36Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and
Scene Flow Estimation [15.98323974821097]
同期した2Dデータと3Dデータから光フローとシーンフローを同時推定する問題について検討する。
そこで本研究では,CamLiFlowと呼ばれる新しいエンドツーエンドフレームワークを提案する。
提案手法は,KITTI Scene Flowベンチマークで1位であり,従来の1/7パラメータよりも優れていた。
論文 参考訳(メタデータ) (2021-11-20T02:58:38Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。