論文の概要: CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and
Scene Flow Estimation
- arxiv url: http://arxiv.org/abs/2111.10502v1
- Date: Sat, 20 Nov 2021 02:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:21:29.371318
- Title: CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and
Scene Flow Estimation
- Title(参考訳): CamLiFlow: 双方向カメラ-LiDAR融合による共同光流とシーンフロー推定
- Authors: Haisong Liu, Tao Lu, Yihui Xu, Jia Liu, Wenjie Li, Lijun Chen
- Abstract要約: 同期した2Dデータと3Dデータから光フローとシーンフローを同時推定する問題について検討する。
そこで本研究では,CamLiFlowと呼ばれる新しいエンドツーエンドフレームワークを提案する。
提案手法は,KITTI Scene Flowベンチマークで1位であり,従来の1/7パラメータよりも優れていた。
- 参考スコア(独自算出の注目度): 15.98323974821097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of jointly estimating the optical flow
and scene flow from synchronized 2D and 3D data. Previous methods either employ
a complex pipeline which splits the joint task into independent stages, or fuse
2D and 3D information in an ``early-fusion'' or ``late-fusion'' manner. Such
one-size-fits-all approaches suffer from a dilemma of failing to fully utilize
the characteristic of each modality or to maximize the inter-modality
complementarity. To address the problem, we propose a novel end-to-end
framework, called CamLiFlow. It consists of 2D and 3D branches with multiple
bidirectional connections between them in specific layers. Different from
previous work, we apply a point-based 3D branch to better extract the geometric
features and design a symmetric learnable operator to fuse dense image features
and sparse point features. We also propose a transformation for point clouds to
solve the non-linear issue of 3D-2D projection. Experiments show that CamLiFlow
achieves better performance with fewer parameters. Our method ranks 1st on the
KITTI Scene Flow benchmark, outperforming the previous art with 1/7 parameters.
Code will be made available.
- Abstract(参考訳): 本稿では,同期2次元データと3次元データから光の流れとシーンの流れを同時推定する問題について検討する。
従来の方法では、ジョイントタスクを独立したステージに分割する複雑なパイプラインを使うか、2Dおよび3D情報を `early-fusion' または `late-fusion' の方法でフューズする。
このような1つの大きさのアプローチは、各モダリティの特性を完全に活用したり、モダリティ間の相補性を最大限にするために失敗するジレンマに悩まされる。
そこで我々はCamLiFlowと呼ばれる新しいエンドツーエンドフレームワークを提案する。
2Dブランチと3Dブランチで構成され、複数の双方向接続を特定のレイヤで接続する。
従来の研究とは違って,幾何学的特徴をよりよく抽出する点ベース3D分岐を適用し,高密度画像特徴と疎点特徴を融合する対称学習可能な演算子を設計する。
また、3D-2Dプロジェクションの非線形問題を解くために点雲の変換を提案する。
実験の結果、CamLiFlowはより少ないパラメータでより良いパフォーマンスを実現している。
提案手法は,KITTI Scene Flowベンチマークで1位であり,従来の1/7パラメータよりも優れていた。
コードは利用可能になる。
関連論文リスト
- Occupancy-Based Dual Contouring [12.944046673902415]
本稿では,2重畳み込み方式を提案する。
本手法は,GPU並列化を最大化するために,学習不要かつ慎重に設計されている。
論文 参考訳(メタデータ) (2024-09-20T11:32:21Z) - ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。
この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文 参考訳(メタデータ) (2024-03-15T14:35:05Z) - Learning Optical Flow and Scene Flow with Bidirectional Camera-LiDAR Fusion [21.421913505496846]
同期した2Dデータと3Dデータから光フローとシーンフローを同時推定する問題について検討する。
従来の方法では、ジョイントタスクを独立したステージに分割する複雑なパイプラインを使用するか、アーリーフュージョンまたはレイトフュージョンの方法で2Dと3D情報を融合する。
本稿では,2次元および3次元の分岐からなり,各層に複数方向の融合接続を施した新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-21T16:54:01Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - What Matters for 3D Scene Flow Network [44.02710380584977]
点雲からの3次元シーンフロー推定はコンピュータビジョンにおける低レベルな3次元モーション知覚タスクである。
そこで本研究では,初期シーンフロー推定時の逆方向の信頼性検証が可能な,新しい全対全フロー埋め込み層を提案する。
提案したモデルは,FlyingThings3Dデータセットで少なくとも38.2%,KITTI Scene Flowデータセットで24.7%,EPE3Dメトリックで,既存のすべてのメソッドを上回ります。
論文 参考訳(メタデータ) (2022-07-19T09:27:05Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。