論文の概要: Attention-based Proposals Refinement for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2201.07070v1
- Date: Tue, 18 Jan 2022 15:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 18:44:53.254469
- Title: Attention-based Proposals Refinement for 3D Object Detection
- Title(参考訳): 注意に基づく3次元物体検出手法の提案
- Authors: Minh-Quan Dao, Elwan H\'ery, Vincent Fr\'emont
- Abstract要約: 本稿では、注意機構を用いたROI特徴抽出に対して、よりデータ駆動的なアプローチをとる。
KITTIのテキスト検証実験により, クラスカーの84.84 APの競争性能を適度に向上することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Safe autonomous driving technology heavily depends on accurate 3D object
detection since it produces input to safety critical downstream tasks such as
prediction and navigation. Recent advances in this field is made by developing
the refinement stage for voxel-based region proposal networks to better strike
the balance between accuracy and efficiency. A popular approach among
state-of-the-art frameworks is to divide proposals, or Region of Interest
(ROI), into grids and extract feature for each grid location before
synthesizing them to ROI feature. While achieving impressive performances, such
an approach involves a number of hand crafted components (e.g. grid sampling,
set abstraction) which requires expert knowledge to be tuned correctly. This
paper takes a more data-driven approach to ROI feature extraction using the
attention mechanism. Specifically, points inside a ROI are positionally encoded
to incorporate ROI 's geometry. The resulted position encoding and their
features are transformed into ROI feature via vector attention. Unlike the
original multi-head attention, vector attention assign different weights to
different channels within a point feature, thus being able to capture a more
sophisticated relation between pooled points and ROI. Experiments on KITTI
\textit{validation} set show that our method achieves competitive performance
of 84.84 AP for class Car at Moderate difficulty while having the least
parameters compared to closely related methods and attaining a quasi-real time
inference speed at 15 FPS on NVIDIA V100 GPU. The code will be released.
- Abstract(参考訳): 安全な自動運転技術は、予測やナビゲーションなどの安全上重要な下流タスクへの入力を生成するため、正確な3dオブジェクト検出に大きく依存する。
この分野での最近の進歩は、精度と効率のバランスを良くするために、voxelベースの地域提案ネットワークの改良段階を開発することである。
最先端フレームワークの間で一般的なアプローチは、提案や関心領域(ROI)をグリッドに分割し、ROI機能に合成する前に各グリッドロケーションの機能を抽出することである。
印象的なパフォーマンスを実現する一方で、このようなアプローチには、専門家の知識を正しくチューニングする必要がある多数の手作りのコンポーネント(グリッドサンプリング、セット抽象化など)が含まれている。
本稿では,注意機構を用いたroi特徴抽出に対するデータ駆動アプローチについて述べる。
具体的には、ROI内の点はROIの幾何学を組み込むように位置符号化される。
結果として得られる位置符号化とその特徴はベクトル注意によりROI特徴に変換される。
もともとのマルチヘッドアテンションとは異なり、ベクトルアテンションは点特徴内の異なるチャネルに異なる重みを割り当て、プールされた点とROIの間のより洗練された関係を捉えることができる。
kitti \textit{validation} セットの実験では、近縁の方法に比べてパラメータが低く、nvidia v100 gpu 上で 15 fps の準リアルタイム推論速度を達成しながら、クラスカーの84.84 apの競合性能を適度に達成できることが示されている。
コードはリリースされます。
関連論文リスト
- Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - Correlation Pyramid Network for 3D Single Object Tracking [16.694809791177263]
本稿では,統合エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
CorpNetは、リアルタイムに実行しながら最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-05-16T06:07:20Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - SoK: Vehicle Orientation Representations for Deep Rotation Estimation [2.052323405257355]
KITTIの3Dオブジェクト検出データセットを用いて,既存の配向表現の精度について検討した。
配向表現の新しい形式としてトリコシンを提案する。
論文 参考訳(メタデータ) (2021-12-08T17:12:54Z) - Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection [89.66162518035144]
点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。
我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
論文 参考訳(メタデータ) (2021-09-06T14:17:51Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - MRDet: A Multi-Head Network for Accurate Oriented Object Detection in
Aerial Images [51.227489316673484]
水平アンカーから変換された指向性提案を生成するために、任意指向領域提案ネットワーク(AO-RPN)を提案する。
正確なバウンディングボックスを得るために,検出タスクを複数のサブタスクに分離し,マルチヘッドネットワークを提案する。
各ヘッドは、対応するタスクに最適な特徴を学習するために特別に設計されており、ネットワークがオブジェクトを正確に検出することができる。
論文 参考訳(メタデータ) (2020-12-24T06:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。