論文の概要: AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2207.10316v1
- Date: Thu, 21 Jul 2022 06:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:02:24.567784
- Title: AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection
- Title(参考訳): AutoAlignV2:動的マルチモーダル3Dオブジェクト検出のための変形可能な特徴集約
- Authors: Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang,
Feng Zhao
- Abstract要約: 我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 17.526914782562528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point clouds and RGB images are two general perceptional sources in
autonomous driving. The former can provide accurate localization of objects,
and the latter is denser and richer in semantic information. Recently,
AutoAlign presents a learnable paradigm in combining these two modalities for
3D object detection. However, it suffers from high computational cost
introduced by the global-wise attention. To solve the problem, we propose
Cross-Domain DeformCAFA module in this work. It attends to sparse learnable
sampling points for cross-modal relational modeling, which enhances the
tolerance to calibration error and greatly speeds up the feature aggregation
across different modalities. To overcome the complex GT-AUG under multi-modal
settings, we design a simple yet effective cross-modal augmentation strategy on
convex combination of image patches given their depth information. Moreover, by
carrying out a novel image-level dropout training scheme, our model is able to
infer in a dynamic manner. To this end, we propose AutoAlignV2, a faster and
stronger multi-modal 3D detection framework, built on top of AutoAlign.
Extensive experiments on nuScenes benchmark demonstrate the effectiveness and
efficiency of AutoAlignV2. Notably, our best model reaches 72.4 NDS on nuScenes
test leaderboard, achieving new state-of-the-art results among all published
multi-modal 3D object detectors. Code will be available at
https://github.com/zehuichen123/AutoAlignV2.
- Abstract(参考訳): ポイントクラウドとRGBイメージは、自律運転における2つの一般的な認識源である。
前者はオブジェクトの正確なローカライズを提供し、後者はセマンティック情報により密着し豊かである。
最近、AutoAlignはこれら2つのモードを組み合わせて3Dオブジェクト検出を行うための学習可能なパラダイムを提示している。
しかし、グローバルな注目がもたらした高い計算コストに悩まされている。
そこで本研究では,クロスドメインデフォルムCAFAモジュールを提案する。
これによってキャリブレーションエラーへの耐性が向上し、さまざまなモダリティにまたがる機能集約が大幅にスピードアップする。
複雑なGT-AUGをマルチモーダル設定で克服するために,画像パッチの凸結合に対して,その深度情報をもとに,単純かつ効果的なクロスモーダル拡張戦略を設計する。
さらに,新しい画像レベルのドロップアウトトレーニングスキームを実施すれば,モデルを動的に推測することができる。
そこで我々は,AutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
nuScenesベンチマークの大規模な実験では、AutoAlignV2の有効性と効率が示されている。
特に、我々の最良のモデルは、nuScenesテストリーダーボード上で72.4 NDSに達し、公開されたすべてのマルチモーダル3Dオブジェクト検出器の中で、新しい最先端の結果を達成する。
コードはhttps://github.com/zehuichen123/AutoAlignV2で入手できる。
関連論文リスト
- An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single
Camera [10.573423265001706]
本稿では,1台のカメラからの画像に基づく広帯域Pseudo-3D車両検出手法を提案する。
擬似3次元物体を検出するために,本モデルは特別に設計された検出ヘッドを採用する。
オブジェクトボックスとSPLを併用した共同制約損失はモデルトレーニング時に設計され、モデルの効率、安定性、予測精度が向上する。
論文 参考訳(メタデータ) (2023-09-15T12:50:09Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object
Detection [46.03951171790736]
3Dオブジェクト検出のための自動機能融合戦略であるtextitAutoAlignを提案する。
提案手法は,KITTIデータセットとnuScenesデータセットの2.3mAPと7.0mAPの改善につながることを示す。
論文 参考訳(メタデータ) (2022-01-17T16:08:57Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。