論文の概要: To the Point: Efficient 3D Object Detection in the Range Image with
Graph Convolution Kernels
- arxiv url: http://arxiv.org/abs/2106.13381v1
- Date: Fri, 25 Jun 2021 01:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 00:59:33.308192
- Title: To the Point: Efficient 3D Object Detection in the Range Image with
Graph Convolution Kernels
- Title(参考訳): グラフ畳み込みカーネルを用いた距離画像における効率的な3次元物体検出
- Authors: Yuning Chai, Pei Sun, Jiquan Ngiam, Weiyue Wang, Benjamin Caine, Vijay
Vasudevan, Xiao Zhang, Dragomir Anguelov
- Abstract要約: 我々は,各画素の3次元球面座標を網羅する2次元畳み込みネットワークアーキテクチャを設計する。
提案手法はオープンデータセット上で競合的に動作し,歩行者検出の最先端APを69.7%から75.5%に改善する。
私たちの最小のモデルは、今でも人気の高いPointPillarsを上回り、180倍のFLOPSとモデルパラメータを必要としています。
- 参考スコア(独自算出の注目度): 30.3378171262436
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: 3D object detection is vital for many robotics applications. For tasks where
a 2D perspective range image exists, we propose to learn a 3D representation
directly from this range image view. To this end, we designed a 2D
convolutional network architecture that carries the 3D spherical coordinates of
each pixel throughout the network. Its layers can consume any arbitrary
convolution kernel in place of the default inner product kernel and exploit the
underlying local geometry around each pixel. We outline four such kernels: a
dense kernel according to the bag-of-words paradigm, and three graph kernels
inspired by recent graph neural network advances: the Transformer, the
PointNet, and the Edge Convolution. We also explore cross-modality fusion with
the camera image, facilitated by operating in the perspective range image view.
Our method performs competitively on the Waymo Open Dataset and improves the
state-of-the-art AP for pedestrian detection from 69.7% to 75.5%. It is also
efficient in that our smallest model, which still outperforms the popular
PointPillars in quality, requires 180 times fewer FLOPS and model parameters
- Abstract(参考訳): 3Dオブジェクト検出は多くのロボティクス応用において不可欠である。
2次元視点範囲画像が存在するタスクに対しては,この範囲画像から直接3次元表現を学習することを提案する。
この目的のために,我々は,各画素の3次元球面座標をネットワーク全体に伝達する2次元畳み込みネットワークアーキテクチャを設計した。
その層は、デフォルトの内積カーネルの代わりに任意の畳み込みカーネルを消費し、各ピクセルの周囲の基底となる局所幾何学を利用することができる。
我々は4つのカーネルを概説する: 単語の袋型パラダイムに基づく密集したカーネル、最近のグラフニューラルネットワークの進歩に触発された3つのグラフカーネル: トランスフォーマー、ポイントネット、エッジ畳み込み。
また、遠近距離画像ビューの操作により、カメラ画像とのクロスモダリティ融合についても検討する。
本手法はWaymo Open Dataset上で競合的に動作し,歩行者検出の最先端APを69.7%から75.5%に改善する。
私たちの最小のモデルは、今でも人気の高いPointPillarsを上回り、180倍のFLOPSとモデルパラメータを必要としています。
関連論文リスト
- Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - GRF: Learning a General Radiance Field for 3D Representation and
Rendering [4.709764624933227]
我々は、暗黙的に3Dオブジェクトとシーンを2D観察からのみ表現しレンダリングする、シンプルだが強力なニューラルネットワークを提案する。
ネットワークは、一般的な放射場として3Dジオメトリをモデル化し、カメラのポーズと固有の2D画像のセットを入力として取り込む。
提案手法は, 斬新なオブジェクト, 見えないカテゴリ, 現実のシーンに対して, 高品質で現実的な新しいビューを生成できる。
論文 参考訳(メタデータ) (2020-10-09T14:21:43Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。