論文の概要: STS: Surround-view Temporal Stereo for Multi-view 3D Detection
- arxiv url: http://arxiv.org/abs/2208.10145v1
- Date: Mon, 22 Aug 2022 08:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:36:08.007691
- Title: STS: Surround-view Temporal Stereo for Multi-view 3D Detection
- Title(参考訳): STS:マルチビュー3D検出のための全周時間ステレオ
- Authors: Zengran Wang, Chen Min, Zheng Ge, Yinhao Li, Zeming Li, Hongyu Yang,
Di Huang
- Abstract要約: 本稿では,フレーム間の幾何学的対応を利用して正確な深度学習を容易にする新しいSurround-view Temporal Stereo(STS)手法を提案する。
nuScenesの実験では、STSは特に中距離と長距離の物体の3D検出能力を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 28.137180365082976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning accurate depth is essential to multi-view 3D object detection.
Recent approaches mainly learn depth from monocular images, which confront
inherent difficulties due to the ill-posed nature of monocular depth learning.
Instead of using a sole monocular depth method, in this work, we propose a
novel Surround-view Temporal Stereo (STS) technique that leverages the geometry
correspondence between frames across time to facilitate accurate depth
learning. Specifically, we regard the field of views from all cameras around
the ego vehicle as a unified view, namely surroundview, and conduct temporal
stereo matching on it. The resulting geometrical correspondence between
different frames from STS is utilized and combined with the monocular depth to
yield final depth prediction. Comprehensive experiments on nuScenes show that
STS greatly boosts 3D detection ability, notably for medium and long distance
objects. On BEVDepth with ResNet-50 backbone, STS improves mAP and NDS by 2.6%
and 1.4%, respectively. Consistent improvements are observed when using a
larger backbone and a larger image resolution, demonstrating its effectiveness
- Abstract(参考訳): 多視点3Dオブジェクト検出には,正確な深度学習が不可欠である。
近年のアプローチは主に単眼画像から奥行きを学習するが、これは単眼深度学習が不適切であることによる本質的困難に直面する。
本研究では, 単分子深度法の代わりに, フレーム間の幾何学的対応を利用して正確な深度学習を容易にする新しいSurround-view Temporal Stereo(STS)技術を提案する。
具体的には、エゴ車周りの全カメラからの視界を統一された視界、すなわちサラウンドビューとみなし、時間的ステレオマッチングを行う。
stsからの異なるフレーム間の幾何学的対応を利用して単眼深度と組み合わせ、最終深度予測を行う。
nuScenesの総合的な実験により、STSは特に中距離と長距離の物体の3D検出能力を大幅に向上させることが示された。
BEVDepthとResNet-50のバックボーンでは、STSはmAPとNDSをそれぞれ2.6%改善し、1.4%改善した。
大きなバックボーンと大きな解像度を使用する場合、一貫した改善が観察され、その効果を示している。
関連論文リスト
- SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets [65.64958606221069]
マルチカメラシステムは、360ドル周の知覚を達成するために、しばしば自律走行に使用される。
360ドル(約3万3000円)のカメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。
重なりの重なりに多視点ステレオ結果を明示的に利用することにより、全画像の深さ推定を強化するステレオガイド深度推定法(SGDE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T02:41:37Z) - DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for
Monocular 3D Semantic Scene Completion [0.4662017507844857]
DepthSSCはモノクロカメラのみをベースとしたセマンティックシーン補完手法である。
従来の手法で観察された空間的不整合や歪みの問題を緩和する。
複雑な3D構造の詳細をキャプチャーし、最先端のパフォーマンスを実現する効果を実証する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Self-supervised monocular depth estimation from oblique UAV videos [8.876469413317341]
本論文では, 深層学習を用いて, 単一のUAV空中画像から深度を推定する。
連続時間フレームから情報を抽出する2次元CNNエンコーダと3次元CNNデコーダを備えた新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-19T14:53:28Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。