論文の概要: Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network
- arxiv url: http://arxiv.org/abs/2207.05497v1
- Date: Tue, 12 Jul 2022 12:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:32:37.587170
- Title: Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network
- Title(参考訳): paint and distill:セマンティックパッシングネットワークによる3dオブジェクト検出の促進
- Authors: Bo Ju, Zhikang Zou, Xiaoqing Ye, Minyue Jiang, Xiao Tan, Errui Ding,
Jingdong Wang
- Abstract要約: ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
- 参考スコア(独自算出の注目度): 70.53093934205057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection task from lidar or camera sensors is essential for
autonomous driving. Pioneer attempts at multi-modality fusion complement the
sparse lidar point clouds with rich semantic texture information from images at
the cost of extra network designs and overhead. In this work, we propose a
novel semantic passing framework, named SPNet, to boost the performance of
existing lidar-based 3D detection models with the guidance of rich context
painting, with no extra computation cost during inference. Our key design is to
first exploit the potential instructive semantic knowledge within the
ground-truth labels by training a semantic-painted teacher model and then guide
the pure-lidar network to learn the semantic-painted representation via
knowledge passing modules at different granularities: class-wise passing,
pixel-wise passing and instance-wise passing. Experimental results show that
the proposed SPNet can seamlessly cooperate with most existing 3D detection
frameworks with 1~5% AP gain and even achieve new state-of-the-art 3D detection
performance on the KITTI test benchmark. Code is available at:
https://github.com/jb892/SPNet.
- Abstract(参考訳): lidarやカメラセンサーからの3dオブジェクト検出タスクは、自動運転に不可欠である。
マルチモダリティ融合の先駆的な試みは、ネットワーク設計とオーバーヘッドを余分に犠牲にして、画像からの豊富なセマンティックテクスチャ情報を持つスパースなlidarポイントクラウドを補完する。
本研究では,既存のlidarベースの3d検出モデルの性能を,リッチ・コンテキスト・ペインティングの指導により向上させ,推論時に余分な計算コストを要さずに向上させる,新しい意味的パッシングフレームワーク spnet を提案する。
我々のキーとなる設計は、まずセマンティックペイントの教師モデルを訓練し、次に純ライダーネットワークを誘導し、異なる粒度のモジュールを渡す知識(クラスワイドパス、ピクセルワイドパス、インスタンスワイドパス)を通してセマンティックペイントの表現を学ぶことである。
実験結果から,提案するSPNetは既存の3D検出フレームワークに1~5%のAPゲインでシームレスに連携し,KITTIテストベンチマークで新たな最先端3D検出性能を達成できることがわかった。
コードはhttps://github.com/jb892/spnet。
関連論文リスト
- MonoNext: A 3D Monocular Object Detection with ConvNext [69.33657875725747]
本稿では3次元物体検出のためのMonoNextと呼ばれる新しいマルチタスク学習手法を提案する。
MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスデータのみを必要とする。
KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。
論文 参考訳(メタデータ) (2023-08-01T15:15:40Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - PAI3D: Painting Adaptive Instance-Prior for 3D Object Detection [22.41785292720421]
Painting Adaptive Instance-prior for 3D Object Detection (PAI3D)は、シーケンシャルなインスタンスレベルの融合フレームワークである。
まず、画像からインスタンスレベルの意味情報を抽出する。
次に、オブジェクト分類ラベル、ポイント・ツー・オブジェクト・メンバシップ、オブジェクト位置を含む抽出情報を用いて、その後の3D検出ネットワークにおける各LiDARポイントを増強する。
論文 参考訳(メタデータ) (2022-11-15T11:15:25Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - SemanticVoxels: Sequential Fusion for 3D Pedestrian Detection using
LiDAR Point Cloud and Semantic Segmentation [4.350338899049983]
我々は、異なるレベルで融合を適用できるように、PointPaintingの一般化を提案する。
本研究では,セマンティックボクセルが3次元および鳥の視線歩行者検出ベンチマークにおいて,最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-09-25T14:52:32Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。