論文の概要: A Simple Baseline for Supervised Surround-view Depth Estimation
- arxiv url: http://arxiv.org/abs/2303.07759v3
- Date: Wed, 18 Oct 2023 10:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 13:19:08.012039
- Title: A Simple Baseline for Supervised Surround-view Depth Estimation
- Title(参考訳): 教師付きサラウンドビュー深度推定のための簡易ベースライン
- Authors: Xianda Guo, Wenjie Yuan, Yunpeng Zhang, Tian Yang, Chenming Zhang,
Zheng Zhu, Long Chen
- Abstract要約: 本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 25.81521612343612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation has been widely studied and serves as the fundamental step
of 3D perception for intelligent vehicles. Though significant progress has been
made in monocular depth estimation in the past decades, these attempts are
mainly conducted on the KITTI benchmark with only front-view cameras, which
ignores the correlations across surround-view cameras. In this paper, we
propose S3Depth, a Simple Baseline for Supervised Surround-view Depth
Estimation, to jointly predict the depth maps across multiple surrounding
cameras. Specifically, we employ a global-to-local feature extraction module
which combines CNN with transformer layers for enriched representations.
Further, the Adjacent-view Attention mechanism is proposed to enable the
intra-view and inter-view feature propagation. The former is achieved by the
self-attention module within each view, while the latter is realized by the
adjacent attention module, which computes the attention across multi-cameras to
exchange the multi-scale representations across surround-view feature maps.
Extensive experiments show that our method achieves superior performance over
existing state-of-the-art methods on both DDAD and nuScenes datasets.
- Abstract(参考訳): 深度推定は広く研究され、知的車両の3次元知覚の基本的なステップとなっている。
過去数十年間、単眼深度推定において顕著な進歩があったが、これらの試みは主に、周囲カメラ間の相関を無視する前面カメラのみを用いたKITTIベンチマークで行われている。
本稿では,S3Depthを提案する。S3Depthは,複数の周囲カメラにまたがる深度マップを共同で予測する簡易ベースラインである。
具体的には,CNNとトランスフォーマー層を組み合わせたグローバル-ローカルな特徴抽出モジュールを用いて表現を豊かにする。
さらに、ビュー内およびビュー間特徴伝搬を可能にするために、アジャセントビュー注意機構を提案する。
前者は各ビュー内のセルフアテンションモジュールで達成され、後者はアテンションモジュールで実現され、マルチカメラ間でアテンションを計算し、サラウンドビュー特徴マップでマルチスケール表現を交換する。
本手法はDDADとnuScenesの両方のデータセット上で,既存の最先端手法よりも優れた性能を示す。
関連論文リスト
- ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - GEDepth: Ground Embedding for Monocular Depth Estimation [4.95394574147086]
本稿では,画像からカメラパラメータを分離する新たな接地モジュールを提案する。
地下深度と残留深度を最適に組み合わせるために、地上の注意をモジュール内に設計する。
実験の結果,本手法は一般的なベンチマークで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-18T17:56:06Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - ACDNet: Adaptively Combined Dilated Convolution for Monocular Panorama
Depth Estimation [9.670696363730329]
本研究では,単眼パノラマ画像の深度マップを予測するために,適応的に組み合わせた拡張畳み込みに基づくACDNetを提案する。
仮想および実世界の3つのデータセットで深度推定実験を行い,提案したACDNetが現在最先端(SOTA)手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-12-29T08:04:19Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。