論文の概要: Exploring Data Augmentation for Multi-Modality 3D Object Detection
- arxiv url: http://arxiv.org/abs/2012.12741v2
- Date: Wed, 21 Apr 2021 16:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 18:22:02.623793
- Title: Exploring Data Augmentation for Multi-Modality 3D Object Detection
- Title(参考訳): マルチモーダル3次元物体検出のためのデータ拡張の検討
- Authors: Wenwei Zhang, Zhe Wang, Chen Change Loy
- Abstract要約: ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
- 参考スコア(独自算出の注目度): 82.9988604088494
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is counter-intuitive that multi-modality methods based on point cloud and
images perform only marginally better or sometimes worse than approaches that
solely use point cloud. This paper investigates the reason behind this
phenomenon. Due to the fact that multi-modality data augmentation must maintain
consistency between point cloud and images, recent methods in this field
typically use relatively insufficient data augmentation. This shortage makes
their performance under expectation. Therefore, we contribute a pipeline, named
transformation flow, to bridge the gap between single and multi-modality data
augmentation with transformation reversing and replaying. In addition,
considering occlusions, a point in different modalities may be occupied by
different objects, making augmentations such as cut and paste non-trivial for
multi-modality detection. We further present Multi-mOdality Cut and pAste
(MoCa), which simultaneously considers occlusion and physical plausibility to
maintain the multi-modality consistency. Without using ensemble of detectors,
our multi-modality detector achieves new state-of-the-art performance on
nuScenes dataset and competitive performance on KITTI 3D benchmark. Our method
also wins the best PKL award in the 3rd nuScenes detection challenge. Code and
models will be released at https://github.com/open-mmlab/mmdetection3d.
- Abstract(参考訳): ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
本稿では,この現象の背景を考察する。
マルチモーダルなデータ拡張は、ポイントクラウドとイメージ間の一貫性を維持する必要があるため、この分野の最近の手法では、一般的に比較的不十分なデータ拡張を使用する。
この不足は彼らのパフォーマンスを期待している。
そこで我々は,トランスフォーメーション・フローというパイプラインをコントリビュートし,トランスフォーメーション・リバースとリプレイを行うことで,単一データとマルチモダリティデータのギャップを埋める。
さらに、オクルージョンを考慮すると、異なるモダリティの点を異なる対象に占有し、マルチモダリティ検出のためにカットやペーストといった非自明な拡張を行うことができる。
さらに,マルチモード整合性を維持するための閉塞性と物理的妥当性を同時に考慮したマルチモードカットとpAste(MoCa)を提案する。
検出器のアンサンブルを使わずに、我々はnuScenesデータセットの最先端性能とKITTI 3Dベンチマークの競合性能を達成する。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
コードとモデルはhttps://github.com/open-mmlab/mmdetection3dでリリースされる。
関連論文リスト
- Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping [12.442574943138794]
本稿では、点雲とRGB画像を利用して異常をローカライズする産業用マルチモーダル異常検出(AD)タスクについて検討する。
我々は,新しい軽量かつ高速なフレームワークを導入し,特徴を1つのモダリティからもう1つのモダリティへのマップを,名目標本上で学習する。
論文 参考訳(メタデータ) (2023-12-07T18:41:21Z) - MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文 参考訳(メタデータ) (2023-03-15T13:13:03Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Segment as Points for Efficient Online Multi-Object Tracking and
Segmentation [66.03023110058464]
本稿では,コンパクトな画像表現を非秩序な2次元点クラウド表現に変換することで,セグメントに基づくインスタンス埋め込みの学習に有効な方法を提案する。
本手法は,画像ではなく,ランダムに選択された点から識別インスタンスの埋め込みを学習する,新たなトラッキング・バイ・ポイントのパラダイムを生成する。
PointTrackという名前のオンラインMOTSフレームワークは、最先端のすべてのメソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-07-03T08:29:35Z) - VMLoc: Variational Fusion For Learning-Based Multimodal Camera
Localization [46.607930208613574]
本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
論文 参考訳(メタデータ) (2020-03-12T14:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。