論文の概要: AFDetV2: Rethinking the Necessity of the Second Stage for Object
Detection from Point Clouds
- arxiv url: http://arxiv.org/abs/2112.09205v1
- Date: Thu, 16 Dec 2021 21:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:08:50.385556
- Title: AFDetV2: Rethinking the Necessity of the Second Stage for Object
Detection from Point Clouds
- Title(参考訳): AFDetV2: 点雲からの物体検出のための第2段階の必要性を再考する
- Authors: Yihan Hu, Zhuangzhuang Ding, Runzhou Ge, Wenxin Shao, Li Huang, Kun
Li, Qiang Liu
- Abstract要約: 我々は点雲からの3次元検出のための1段アンカーフリーネットワークを開発した。
我々は、バックボーンの自己校正畳み込みブロック、キーポイント補助監視、マルチタスクヘッドのIoU予測分岐を使用する。
私たちは2021年のリアルタイム3Dチャレンジで1位を獲得しました。
- 参考スコア(独自算出の注目度): 15.72821609622122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been two streams in the 3D detection from point clouds:
single-stage methods and two-stage methods. While the former is more
computationally efficient, the latter usually provides better detection
accuracy. By carefully examining the two-stage approaches, we have found that
if appropriately designed, the first stage can produce accurate box regression.
In this scenario, the second stage mainly rescores the boxes such that the
boxes with better localization get selected. From this observation, we have
devised a single-stage anchor-free network that can fulfill these requirements.
This network, named AFDetV2, extends the previous work by incorporating a
self-calibrated convolution block in the backbone, a keypoint auxiliary
supervision, and an IoU prediction branch in the multi-task head. As a result,
the detection accuracy is drastically boosted in the single-stage. To evaluate
our approach, we have conducted extensive experiments on the Waymo Open Dataset
and the nuScenes Dataset. We have observed that our AFDetV2 achieves the
state-of-the-art results on these two datasets, superior to all the prior arts,
including both the single-stage and the two-stage se3D detectors. AFDetV2 won
the 1st place in the Real-Time 3D Detection of the Waymo Open Dataset Challenge
2021. In addition, a variant of our model AFDetV2-Base was entitled the "Most
Efficient Model" by the Challenge Sponsor, showing a superior computational
efficiency. To demonstrate the generality of this single-stage method, we have
also applied it to the first stage of the two-stage networks. Without
exception, the results show that with the strengthened backbone and the
rescoring approach, the second stage refinement is no longer needed.
- Abstract(参考訳): ポイントクラウドからの3D検出には、シングルステージメソッドと2ステージメソッドの2つのストリームがある。
前者は計算効率が高いが、後者は検出精度が良くなる。
2段階のアプローチを慎重に検討することにより、適切に設計すれば、第1段階が正確なボックス回帰を生成できることがわかった。
このシナリオでは、第2ステージは主に、より良いローカライゼーションを持つボックスが選択されるように、ボックスを再スコアする。
この観察から,これらの要件を満たした単段アンカーフリーネットワークを考案した。
AFDetV2と名付けられたこのネットワークは、バックボーンに自己校正された畳み込みブロック、キーポイント補助監視、マルチタスクヘッドにIoU予測ブランチを組み込むことで、以前の作業を拡張する。
これにより、単一ステージにおいて検出精度が大幅に向上する。
提案手法を評価するため,Waymo Open DatasetとnuScenes Datasetについて広範な実験を行った。
当社のafdetv2は,これら2つのデータセットの最先端結果を達成しており,単一ステージと2ステージのse3d検出器を含む,すべての先行技術よりも優れています。
AFDetV2は、Waymo Open Dataset Challenge 2021のリアルタイム3D検出で1位を獲得した。
さらに、我々のモデルであるAFDetV2-Baseの変種は、チャレンジスポンサーによって「最も効率的なモデル」と題され、より優れた計算効率を示している。
本手法の汎用性を示すため,本手法を2段階ネットワークの第1段階に適用した。
例外なく, 後骨の強化と再装飾アプローチにより, 第2段階の改良はもはや不要であることが示唆された。
関連論文リスト
- Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection [6.096961718434965]
本研究では,3次元屋内空間の散在を考慮し,半教師付き3次元物体検出の課題について検討する。
我々は,最近セミ教師付き学習の顕著な進歩を招いた,堅牢で原則化された自己学習の枠組みに頼っている。
そこで本研究では,空間的に密集したトレーニング信号を可能にする,最初の半教師付き3次元検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:59:54Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。