論文の概要: 3D-MAN: 3D Multi-frame Attention Network for Object Detection
- arxiv url: http://arxiv.org/abs/2103.16054v1
- Date: Tue, 30 Mar 2021 03:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 03:13:24.469066
- Title: 3D-MAN: 3D Multi-frame Attention Network for Object Detection
- Title(参考訳): 3D-MAN:オブジェクト検出のための3次元多フレームアテンションネットワーク
- Authors: Zetong Yang, Yin Zhou, Zhifeng Chen, Jiquan Ngiam
- Abstract要約: 3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 22.291051951077485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D object detection is an important module in autonomous driving and
robotics. However, many existing methods focus on using single frames to
perform 3D detection, and do not fully utilize information from multiple
frames. In this paper, we present 3D-MAN: a 3D multi-frame attention network
that effectively aggregates features from multiple perspectives and achieves
state-of-the-art performance on Waymo Open Dataset. 3D-MAN first uses a novel
fast single-frame detector to produce box proposals. The box proposals and
their corresponding feature maps are then stored in a memory bank. We design a
multi-view alignment and aggregation module, using attention networks, to
extract and aggregate the temporal features stored in the memory bank. This
effectively combines the features coming from different perspectives of the
scene. We demonstrate the effectiveness of our approach on the large-scale
complex Waymo Open Dataset, achieving state-of-the-art results compared to
published single-frame and multi-frame methods.
- Abstract(参考訳): 3dオブジェクト検出は、自動運転とロボティクスにおいて重要なモジュールである。
しかし、既存の手法の多くは、単一のフレームを使用して3d検出することに集中しており、複数のフレームからの情報を十分に活用していない。
本稿では,複数の視点から機能を効果的に集約し,Waymo Open Dataset上での最先端のパフォーマンスを実現する3D-MANを提案する。
3D-MANは最初、箱の提案を作るために新しい高速単フレーム検出器を使用した。
ボックスの提案とその機能マップは、メモリバンクに格納される。
メモリバンクに格納された時間的特徴を抽出・集約するために,アテンションネットワークを用いた多視点アライメントおよびアグリゲーションモジュールを設計する。
これはシーンの異なる視点から来る機能を効果的に組み合わせます。
大規模な複雑なWaymo Open Datasetに対する我々のアプローチの有効性を実証し、公開シングルフレームおよびマルチフレーム手法と比較して最先端の結果を得る。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - An LSTM Approach to Temporal 3D Object Detection in LiDAR Point Clouds [16.658604637005535]
LSTMを用いた多フレーム3dオブジェクト検出アルゴリズムを提案する。
我々は、U-Netスタイルのスパース畳み込みネットワークを用いて、各フレームのLiDAR点クラウドの特徴を抽出する。
論文 参考訳(メタデータ) (2020-07-24T07:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。