論文の概要: AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2201.06493v1
- Date: Mon, 17 Jan 2022 16:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 08:35:53.369176
- Title: AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object
Detection
- Title(参考訳): AutoAlign:マルチモーダル3Dオブジェクト検出のための画素インスタンス機能集約
- Authors: Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinghong Jiang,
Feng Zhao, Bolei Zhou, Hang Zhao
- Abstract要約: 3Dオブジェクト検出のための自動機能融合戦略であるtextitAutoAlignを提案する。
提案手法は,KITTIデータセットとnuScenesデータセットの2.3mAPと7.0mAPの改善につながることを示す。
- 参考スコア(独自算出の注目度): 46.03951171790736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection through either RGB images or the LiDAR point clouds has been
extensively explored in autonomous driving. However, it remains challenging to
make these two data sources complementary and beneficial to each other. In this
paper, we propose \textit{AutoAlign}, an automatic feature fusion strategy for
3D object detection. Instead of establishing deterministic correspondence with
camera projection matrix, we model the mapping relationship between the image
and point clouds with a learnable alignment map. This map enables our model to
automate the alignment of non-homogenous features in a dynamic and data-driven
manner. Specifically, a cross-attention feature alignment module is devised to
adaptively aggregate \textit{pixel-level} image features for each voxel. To
enhance the semantic consistency during feature alignment, we also design a
self-supervised cross-modal feature interaction module, through which the model
can learn feature aggregation with \textit{instance-level} feature guidance.
Extensive experimental results show that our approach can lead to 2.3 mAP and
7.0 mAP improvements on the KITTI and nuScenes datasets, respectively. Notably,
our best model reaches 70.9 NDS on the nuScenes testing leaderboard, achieving
competitive performance among various state-of-the-arts.
- Abstract(参考訳): RGB画像またはLiDAR点雲による物体検出は、自動運転において広範囲に研究されている。
しかし、これらの2つのデータソースを相互に補完し、有益にするのは難しい。
本稿では,3次元物体検出のための自動機能融合戦略である \textit{autoalign} を提案する。
カメラ投影行列と決定論的対応を確立する代わりに、画像と点雲のマッピング関係を学習可能なアライメントマップでモデル化する。
このマップにより,非同種機能の動的かつデータ駆動的なアライメントを自動化することができる。
具体的には、各ボクセルの \textit{pixel-level} 画像特徴を適応的に集約するクロスアテンション機能アライメントモジュールを考案する。
また,機能アライメント時のセマンティックな一貫性を高めるために,モデルが機能アグリゲーションを \textit{instance-level} 機能ガイダンスで学習できる自己教師付きクロスモーダル機能インタラクションモジュールを設計する。
その結果,KITTIデータセットとnuScenesデータセットの2.3mAPと7.0mAPの改善が得られた。
特に、私たちの最高のモデルは、nuScenesテストのリーダーボード上で70.9 NDSに達し、様々な最先端技術の間で競争力を発揮する。
関連論文リスト
- MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - PAI3D: Painting Adaptive Instance-Prior for 3D Object Detection [22.41785292720421]
Painting Adaptive Instance-prior for 3D Object Detection (PAI3D)は、シーケンシャルなインスタンスレベルの融合フレームワークである。
まず、画像からインスタンスレベルの意味情報を抽出する。
次に、オブジェクト分類ラベル、ポイント・ツー・オブジェクト・メンバシップ、オブジェクト位置を含む抽出情報を用いて、その後の3D検出ネットワークにおける各LiDARポイントを増強する。
論文 参考訳(メタデータ) (2022-11-15T11:15:25Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。