論文の概要: Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2203.02112v1
- Date: Fri, 4 Mar 2022 03:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 15:13:38.963733
- Title: Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving
- Title(参考訳): 自律走行における単眼3次元物体検出のための擬似ステレオ
- Authors: Yi-Nan Chen and Hang Dai and Yong Ding
- Abstract要約: ステレオビューにおける画像-画像生成のギャップは、画像-画像-LiDAR生成のギャップよりもはるかに小さい。
そこで我々はPseudo-Stereo 3D検出フレームワークを3つの新しい仮想ビュー生成手法で提案する。
我々のフレームワークは、KITTI-3Dベンチマークで公表されたモノクラー3D検出器の中で、車、歩行者、サイクリストで1位にランクインしている。
- 参考スコア(独自算出の注目度): 14.582107328849473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pseudo-LiDAR 3D detectors have made remarkable progress in monocular 3D
detection by enhancing the capability of perceiving depth with depth estimation
networks, and using LiDAR-based 3D detection architectures. The advanced stereo
3D detectors can also accurately localize 3D objects. The gap in image-to-image
generation for stereo views is much smaller than that in image-to-LiDAR
generation. Motivated by this, we propose a Pseudo-Stereo 3D detection
framework with three novel virtual view generation methods, including
image-level generation, feature-level generation, and feature-clone, for
detecting 3D objects from a single image. Our analysis of depth-aware learning
shows that the depth loss is effective in only feature-level virtual view
generation and the estimated depth map is effective in both image-level and
feature-level in our framework. We propose a disparity-wise dynamic convolution
with dynamic kernels sampled from the disparity feature map to filter the
features adaptively from a single image for generating virtual image features,
which eases the feature degradation caused by the depth estimation errors. Till
submission (November 18, 2021), our Pseudo-Stereo 3D detection framework ranks
1st on car, pedestrian, and cyclist among the monocular 3D detectors with
publications on the KITTI-3D benchmark. The code is released at
https://github.com/revisitq/Pseudo-Stereo-3D.
- Abstract(参考訳): 擬似LiDAR3D検出器は、深度推定ネットワークによる深度知覚能力を高め、LiDARベースの3D検出アーキテクチャを用いて、単分子3D検出において顕著な進歩を遂げた。
高度なステレオ3D検出器は、3Dオブジェクトを正確にローカライズすることもできる。
ステレオビューにおける画像対画像生成のギャップは、画像対LiDAR生成のギャップよりもはるかに小さい。
そこで我々はPseudo-Stereo 3D検出フレームワークを提案し,画像から3Dオブジェクトを検出するために,画像レベル生成,特徴レベル生成,特徴クロンを含む3つの新しい仮想ビュー生成手法を提案する。
深度認識学習は特徴レベルの仮想ビュー生成にのみ有効であり,推定深度マップは我々のフレームワークにおける画像レベルと特徴レベルの両方に有効であることを示す。
本稿では,分散特徴写像からサンプリングした動的カーネルによる不均一な動的畳み込みを提案し,仮想画像特徴を生成する単一画像から特徴を適応的にフィルタリングすることにより,深さ推定誤差による特徴劣化を緩和する。
2021年11月18日、我々のPseudo-Stereo 3D検出フレームワークは、KITTI-3Dベンチマークで発表されたモノクラー3D検出器の中で、車、歩行者、サイクリストで1位にランクインした。
コードはhttps://github.com/revisitq/Pseudo-Stereo-3Dで公開されている。
関連論文リスト
- Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object
Detection [17.526914782562528]
グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。
我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2022-04-25T12:10:34Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。