論文の概要: SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation
- arxiv url: http://arxiv.org/abs/2204.03636v1
- Date: Thu, 7 Apr 2022 17:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:01:14.056553
- Title: SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation
- Title(参考訳): surrounddepth: 自己教師付きマルチカメラ深度推定のための周辺視点の絡み合い
- Authors: Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Yongming Rao, Guan
Huang, Jiwen Lu, Jie Zhou
- Abstract要約: 本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 101.55622133406446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation from images serves as the fundamental step of 3D perception
for autonomous driving and is an economical alternative to expensive depth
sensors like LiDAR. The temporal photometric consistency enables
self-supervised depth estimation without labels, further facilitating its
application. However, most existing methods predict the depth solely based on
each monocular image and ignore the correlations among multiple surrounding
cameras, which are typically available for modern self-driving vehicles. In
this paper, we propose a SurroundDepth method to incorporate the information
from multiple surrounding views to predict depth maps across cameras.
Specifically, we employ a joint network to process all the surrounding views
and propose a cross-view transformer to effectively fuse the information from
multiple views. We apply cross-view self-attention to efficiently enable the
global interactions between multi-camera feature maps. Different from
self-supervised monocular depth estimation, we are able to predict real-world
scales given multi-camera extrinsic matrices. To achieve this goal, we adopt
structure-from-motion to extract scale-aware pseudo depths to pretrain the
models. Further, instead of predicting the ego-motion of each individual
camera, we estimate a universal ego-motion of the vehicle and transfer it to
each view to achieve multi-view consistency. In experiments, our method
achieves the state-of-the-art performance on the challenging multi-camera depth
estimation datasets DDAD and nuScenes.
- Abstract(参考訳): 画像からの深度推定は、自動運転車の3D認識の基本的なステップであり、LiDARのような高価な深度センサーに代わる経済的な代替手段である。
時間光度整合性はラベルなしで自己教師付き深度推定を可能にし、その適用をさらに促進する。
しかし、既存のほとんどの方法は、個々の単眼画像に基づいて深度を予測し、現代の自動運転車で一般的に利用できる複数の周囲カメラ間の相関を無視する。
本稿では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には,周囲のすべてのビューを協調ネットワークで処理し,複数のビューから情報を効果的に融合するクロスビュートランスフォーマーを提案する。
マルチカメラ特徴写像間のグローバルな相互作用を効果的に実現するために、クロスビュー自己注意を適用した。
自己教師付き単眼深度推定と異なり,多眼極端行列を与えられた実世界スケールを予測できる。
この目的を達成するために, モデル事前学習のためのスケール認識擬似深さを抽出するために, structure-from-motion を採用する。
さらに、各カメラのエゴモーションを予測する代わりに、車両の普遍的なエゴモーションを推定し、それを各ビューに転送し、マルチビュー一貫性を実現する。
実験では, DDAD と nuScenes に挑戦するマルチカメラ深度推定データセット上で, 最先端の性能を実現する。
関連論文リスト
- SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets [65.64958606221069]
マルチカメラシステムは、360ドル周の知覚を達成するために、しばしば自律走行に使用される。
360ドル(約3万3000円)のカメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。
重なりの重なりに多視点ステレオ結果を明示的に利用することにより、全画像の深さ推定を強化するステレオガイド深度推定法(SGDE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T02:41:37Z) - Robust Self-Supervised Extrinsic Self-Calibration [25.727912226753247]
マルチカメラによるビデオからの単眼深度推定は、環境を判断する上で有望な方法である。
本稿では,自己教師型単眼深度と自我運動学習の原理を基礎として,外因性キャリブレーションの新たな手法を提案する。
論文 参考訳(メタデータ) (2023-08-04T06:20:20Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - CrossDTR: Cross-view and Depth-guided Transformers for 3D Object
Detection [10.696619570924778]
そこで我々は,3次元物体検出のためのクロスビューおよび奥行き誘導変換器を提案する。
歩行者検出では既存のマルチカメラ手法を10%上回り,mAPとNDSの指標では約3%を上回りました。
論文 参考訳(メタデータ) (2022-09-27T16:23:12Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Full Surround Monodepth from Multiple Cameras [31.145598985137468]
自己監督単眼深度と自我運動推定を大型フォトベースラインマルチカメラリグに拡張します。
私たちは、典型的なLiDARスキャナーと同じ全周360度の視野をカバーする、高密度で一貫性のあるスケールアウェアポイントクラウドを生成する単一のネットワークを学びます。
論文 参考訳(メタデータ) (2021-03-31T22:52:04Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。