論文の概要: SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection
- arxiv url: http://arxiv.org/abs/2307.02270v1
- Date: Wed, 5 Jul 2023 13:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:45:07.136109
- Title: SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection
- Title(参考訳): SVDM:擬似ステレオ3次元物体検出のための単視点拡散モデル
- Authors: Yuguang Shi
- Abstract要約: Pseudo-Stereoに基づくモノクル3D検出のためのフレームワークが最近提案され、コミュニティで注目されている。
本研究では,単一視点拡散モデルを導入することで,エンドツーエンドで効率的な擬似ステレオ3D検出フレームワークを提案する。
SVDMは擬似ステレオ3D検出パイプライン全体をエンドツーエンドで訓練することができ、ステレオ検出器の訓練の恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key problems in 3D object detection is to reduce the accuracy gap
between methods based on LiDAR sensors and those based on monocular cameras. A
recently proposed framework for monocular 3D detection based on Pseudo-Stereo
has received considerable attention in the community. However, so far these two
problems are discovered in existing practices, including (1) monocular depth
estimation and Pseudo-Stereo detector must be trained separately, (2) Difficult
to be compatible with different stereo detectors and (3) the overall
calculation is large, which affects the reasoning speed. In this work, we
propose an end-to-end, efficient pseudo-stereo 3D detection framework by
introducing a Single-View Diffusion Model (SVDM) that uses a few iterations to
gradually deliver right informative pixels to the left image. SVDM allows the
entire pseudo-stereo 3D detection pipeline to be trained end-to-end and can
benefit from the training of stereo detectors. Afterwards, we further explore
the application of SVDM in depth-free stereo 3D detection, and the final
framework is compatible with most stereo detectors. Among multiple benchmarks
on the KITTI dataset, we achieve new state-of-the-art performance.
- Abstract(参考訳): 3Dオブジェクト検出における重要な問題の1つは、LiDARセンサーに基づく方法と単眼カメラに基づく方法との精度ギャップを減らすことである。
最近提案されたpseudo-stereoに基づく単眼3d検出フレームワークがコミュニティで注目を集めている。
しかし,(1)単眼深度推定と疑似ステレオ検出器を別々に訓練する必要がある,(2)異なるステレオ検出器との互換性が難しいこと,(3)全体的な計算量が大きく,推論速度に影響を及ぼすこと,の2つの問題点がこれまでに発見されている。
本研究では,svdm(single-view diffusion model)を導入することで,左画像に適切な情報画素を徐々に提供できる,エンドツーエンドで効率的なpseudostereo 3d検出フレームワークを提案する。
SVDMは擬似ステレオ3D検出パイプライン全体をエンドツーエンドで訓練することができ、ステレオ検出器の訓練の恩恵を受けることができる。
その後、深度自由ステレオ3d検出におけるsvdmの適用をさらに探究し、最終的な枠組みはほとんどのステレオ検出器と互換性がある。
KITTIデータセット上の複数のベンチマークのうち、我々は新しい最先端のパフォーマンスを達成する。
関連論文リスト
- Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。
このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。
nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-30T01:44:30Z) - Pseudo-Stereo for Monocular 3D Object Detection in Autonomous Driving [14.582107328849473]
ステレオビューにおける画像-画像生成のギャップは、画像-画像-LiDAR生成のギャップよりもはるかに小さい。
そこで我々はPseudo-Stereo 3D検出フレームワークを3つの新しい仮想ビュー生成手法で提案する。
我々のフレームワークは、KITTI-3Dベンチマークで公表されたモノクラー3D検出器の中で、車、歩行者、サイクリストで1位にランクインしている。
論文 参考訳(メタデータ) (2022-03-04T03:00:34Z) - SGM3D: Stereo Guided Monocular 3D Object Detection [62.11858392862551]
SGM3Dと呼ばれるステレオ誘導単分子物体検出ネットワークを提案する。
ステレオ画像から抽出したロバストな3次元特徴を利用して、モノクル画像から得られた特徴を強化する。
本手法は,余分な計算コストを伴わずに性能を向上させるために,他の多くの単分子的手法に統合することができる。
論文 参考訳(メタデータ) (2021-12-03T13:57:14Z) - LIGA-Stereo: Learning LiDAR Geometry Aware Representations for
Stereo-based 3D Detector [80.7563981951707]
本稿では,LIGA-Stereoによるステレオ3次元検出器の学習について,LiDARに基づく検出モデルの高レベルな幾何認識表現の指導の下で提案する。
現状のステレオ検出器と比較して,車,歩行者,サイクリストの3次元検出性能は,それぞれ10.44%,5.69%,5.97%向上した。
論文 参考訳(メタデータ) (2021-08-18T17:24:40Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Confidence Guided Stereo 3D Object Detection with Split Depth Estimation [10.64859537162938]
CG-Stereoは信頼性誘導型ステレオ3Dオブジェクト検出パイプラインである。
深度推定の際には、前景と背景の画素に別個のデコーダを使用する。
提案手法は, KITTIベンチマークにおいて, 最先端のステレオベース3D検出器よりも優れている。
論文 参考訳(メタデータ) (2020-03-11T20:00:11Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。