論文の概要: MAFF-Net: Filter False Positive for 3D Vehicle Detection with
Multi-modal Adaptive Feature Fusion
- arxiv url: http://arxiv.org/abs/2009.10945v1
- Date: Wed, 23 Sep 2020 06:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:21:10.718562
- Title: MAFF-Net: Filter False Positive for 3D Vehicle Detection with
Multi-modal Adaptive Feature Fusion
- Title(参考訳): maff-net: multi-modal adaptive feature fusionを用いた3次元車両検出のためのフィルタ偽陽性
- Authors: Zehan Zhang, Ming Zhang, Zhidong Liang, Xian Zhao, Ming Yang, Wenming
Tan, and ShiLiang Pu
- Abstract要約: マルチモーダル核融合に基づく3次元車両検出は、自律運転など多くのアプリケーションにおいて重要な課題である。
本稿では,エンド・ツー・エンドのトレーニング可能なシングルステージ・マルチモーダル適応型ネットワークを提案する。
異なる利用シナリオに対応するために、2つの融合技術が提案されている。
- 参考スコア(独自算出の注目度): 35.408594498595335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D vehicle detection based on multi-modal fusion is an important task of many
applications such as autonomous driving. Although significant progress has been
made, we still observe two aspects that need to be further improvement: First,
the specific gain that camera images can bring to 3D detection is seldom
explored by previous works. Second, many fusion algorithms run slowly, which is
essential for applications with high real-time requirements(autonomous
driving). To this end, we propose an end-to-end trainable single-stage
multi-modal feature adaptive network in this paper, which uses image
information to effectively reduce false positive of 3D detection and has a fast
detection speed. A multi-modal adaptive feature fusion module based on channel
attention mechanism is proposed to enable the network to adaptively use the
feature of each modal. Based on the above mechanism, two fusion technologies
are proposed to adapt to different usage scenarios: PointAttentionFusion is
suitable for filtering simple false positive and faster; DenseAttentionFusion
is suitable for filtering more difficult false positive and has better overall
performance. Experimental results on the KITTI dataset demonstrate significant
improvement in filtering false positive over the approach using only point
cloud data. Furthermore, the proposed method can provide competitive results
and has the fastest speed compared to the published state-of-the-art
multi-modal methods in the KITTI benchmark.
- Abstract(参考訳): マルチモーダル融合に基づく3次元車両検出は、自動運転など多くの応用において重要な課題である。
第一に、カメラ画像が3d検出に繋がる特定のゲインは、これまでの研究ではほとんど調べられていない。
第二に、多くの融合アルゴリズムはゆっくりと動作し、これは高いリアルタイム要求(自律運転)を持つアプリケーションに必須である。
そこで本稿では,画像情報を用いて3次元検出の誤検出を効果的に低減し,検出速度を高速化する,エンドツーエンドのトレーニング可能な単段マルチモーダル特徴適応ネットワークを提案する。
チャネルアテンション機構に基づくマルチモーダル適応機能融合モジュールを提案し,各モーダルの特徴を適応的に利用できるようにする。
ポイントAttentionFusionは単純な偽陽性をフィルタリングするのに適しており、DenseAttentionFusionはより難しい偽陽性をフィルタリングするのに適しており、全体的なパフォーマンスが向上している。
KITTIデータセットの実験結果は、点クラウドデータのみを用いてアプローチに対して偽陽性をフィルタリングする際の大幅な改善を示している。
さらに,提案手法は,KITTIベンチマークで公表された最先端マルチモーダル手法と比較して,競争力のある結果が得られる。
関連論文リスト
- E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection [21.185032466325737]
マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを紹介する。
E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。
複数の公開データセットに対する広範なテストは、E2E-MFDの優れた機能を明らかにします。
論文 参考訳(メタデータ) (2024-03-14T12:12:17Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - GOOD: General Optimization-based Fusion for 3D Object Detection via
LiDAR-Camera Object Candidates [10.534984939225014]
3次元物体検出は、自律運転における知覚タスクの中核となる基礎となる。
Goodは汎用的な最適化ベースの融合フレームワークで、追加のモデルをトレーニングすることなく、満足度の高い検出を実現できる。
nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1%上回っていることが示された。
論文 参考訳(メタデータ) (2023-03-17T07:05:04Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。