論文の概要: Progressive Coordinate Transforms for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2108.05793v2
- Date: Fri, 13 Aug 2021 07:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 11:08:36.247535
- Title: Progressive Coordinate Transforms for Monocular 3D Object Detection
- Title(参考訳): 単眼3次元物体検出のためのプログレッシブ座標変換
- Authors: Li Wang, Li Zhang, Yi Zhu, Zhi Zhang, Tong He, Mu Li, Xiangyang Xue
- Abstract要約: 本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
- 参考スコア(独自算出の注目度): 52.00071336733109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing and localizing objects in the 3D space is a crucial ability for
an AI agent to perceive its surrounding environment. While significant progress
has been achieved with expensive LiDAR point clouds, it poses a great challenge
for 3D object detection given only a monocular image. While there exist
different alternatives for tackling this problem, it is found that they are
either equipped with heavy networks to fuse RGB and depth information or
empirically ineffective to process millions of pseudo-LiDAR points. With
in-depth examination, we realize that these limitations are rooted in
inaccurate object localization. In this paper, we propose a novel and
lightweight approach, dubbed {\em Progressive Coordinate Transforms} (PCT) to
facilitate learning coordinate representations. Specifically, a localization
boosting mechanism with confidence-aware loss is introduced to progressively
refine the localization prediction. In addition, semantic image representation
is also exploited to compensate for the usage of patch proposals. Despite being
lightweight and simple, our strategy leads to superior improvements on the
KITTI and Waymo Open Dataset monocular 3D detection benchmarks. At the same
time, our proposed PCT shows great generalization to most coordinate-based 3D
detection frameworks. The code is available at:
https://github.com/amazon-research/progressive-coordinate-transforms .
- Abstract(参考訳): 3D空間における物体の認識とローカライズは、AIエージェントが周囲の環境を知覚する重要な能力である。
高価なlidarポイント雲では大きな進歩を遂げているが、単眼像のみを想定して3dオブジェクト検出には大きな課題がある。
この問題に対処するための代替手段はいくつかあるが、RGBと深度情報を融合する重いネットワークを備えていたり、数百万の擬似LiDARポイントを処理するのに実証的に効果がなかったりする。
詳細な検査により、これらの制限が不正確な物体の局在に根ざしていることが分かる。
本稿では,学習座標表現を容易にするための新しい,かつ軽量な手法である {\em progressive coordinate transforms} (pct) を提案する。
具体的には, 位置推定を段階的に洗練するために, 信頼度認識損失を伴う位置推定促進機構を導入する。
さらに、セマンティックイメージ表現はパッチ提案の使用を補うためにも利用される。
軽量でシンプルであるにもかかわらず、我々の戦略はkittiおよびwaymo open dataset monocular 3d detection benchmarksに優れた改善をもたらす。
同時に,提案するpctは,ほとんどの座標に基づく3d検出フレームワークに対して大きな一般化を示す。
https://github.com/amazon-research/progressive-coordinate-transforms。
関連論文リスト
- GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。