論文の概要: ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2003.00529v1
- Date: Sun, 1 Mar 2020 17:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:14:41.799953
- Title: ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection
- Title(参考訳): zoomnet:3次元物体検出のための部分認識適応ズームニューラルネットワーク
- Authors: Zhenbo Xu, Wei Zhang, Xiaoqing Ye, Xiao Tan, Wei Yang, Shilei Wen,
Errui Ding, Ajin Meng, Liusheng Huang
- Abstract要約: ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
- 参考スコア(独自算出の注目度): 69.68263074432224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection is an essential task in autonomous driving and robotics.
Though great progress has been made, challenges remain in estimating 3D pose
for distant and occluded objects. In this paper, we present a novel framework
named ZoomNet for stereo imagery-based 3D detection. The pipeline of ZoomNet
begins with an ordinary 2D object detection model which is used to obtain pairs
of left-right bounding boxes. To further exploit the abundant texture cues in
RGB images for more accurate disparity estimation, we introduce a conceptually
straight-forward module -- adaptive zooming, which simultaneously resizes 2D
instance bounding boxes to a unified resolution and adjusts the camera
intrinsic parameters accordingly. In this way, we are able to estimate
higher-quality disparity maps from the resized box images then construct dense
point clouds for both nearby and distant objects. Moreover, we introduce to
learn part locations as complementary features to improve the resistance
against occlusion and put forward the 3D fitting score to better estimate the
3D detection quality. Extensive experiments on the popular KITTI 3D detection
dataset indicate ZoomNet surpasses all previous state-of-the-art methods by
large margins (improved by 9.4% on APbv (IoU=0.7) over pseudo-LiDAR). Ablation
study also demonstrates that our adaptive zooming strategy brings an
improvement of over 10% on AP3d (IoU=0.7). In addition, since the official
KITTI benchmark lacks fine-grained annotations like pixel-wise part locations,
we also present our KFG dataset by augmenting KITTI with detailed instance-wise
annotations including pixel-wise part location, pixel-wise disparity, etc..
Both the KFG dataset and our codes will be publicly available at
https://github.com/detectRecog/ZoomNet.
- Abstract(参考訳): 3dオブジェクト検出は、自動運転とロボティクスにおいて不可欠なタスクである。
大きな進歩はあったが、遠方および閉ざされた物体に対する3dポーズの推定にはまだ課題が残っている。
本稿では,ステレオ画像に基づく3次元検出のためのzoomnetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異方性推定を行うために,2Dインスタンス境界ボックスを統一解像度に再サイズし,カメラ固有のパラメータを調整した,概念的にストレート・フォワード・モジュール-アダプティブ・ズームを導入する。
このようにして、再サイズされたボックスイメージから高品質な異質マップを推定し、近くの物体と遠くの物体の両方に密集した点雲を構築することができる。
さらに,咬合に対する抵抗性を向上させるための補足的特徴として学習部の位置を紹介し,3dフィッティングスコアを提示することで3d検出品質を推定する。
一般的なKITTIの3D検出データセットに関する大規模な実験は、ZoomNetが従来の最先端の手法を全て大きなマージンで上回っていることを示している(擬似LiDARよりもAPbv (IoU=0.7)で9.4%向上している)。
アブレーション研究はまた、我々の適応的なズーム戦略がAP3d(IoU=0.7)上で10%以上の改善をもたらすことを示した。
さらに、公式のKITTIベンチマークでは、ピクセルワイズ部分位置のような細かいアノテーションが欠けているため、KITTIに、画素ワイズ部分位置、ピクセルワイズ不一致などを含む詳細なインスタンスワイズアノテーションを付加することで、KFGデータセットも提示する。
KFGデータセットと私たちのコードは、https://github.com/detectRecog/ZoomNetで公開されます。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - 3D Small Object Detection with Dynamic Spatial Pruning [62.72638845817799]
本稿では,3次元小物体検出のための効率的な特徴解析手法を提案する。
空間分解能の高いDSPDet3Dというマルチレベル3次元検出器を提案する。
ほぼ全ての物体を検知しながら、4500k以上のポイントからなる建物全体を直接処理するには2秒もかからない。
論文 参考訳(メタデータ) (2023-05-05T17:57:04Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。