論文の概要: GEDepth: Ground Embedding for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2309.09975v1
- Date: Mon, 18 Sep 2023 17:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:01:18.507992
- Title: GEDepth: Ground Embedding for Monocular Depth Estimation
- Title(参考訳): GEDepth: 単眼深度推定のための接地埋め込み
- Authors: Xiaodong Yang, Zhuang Ma, Zhiyu Ji, Zhe Ren
- Abstract要約: 本稿では,画像からカメラパラメータを分離する新たな接地モジュールを提案する。
地下深度と残留深度を最適に組み合わせるために、地上の注意をモジュール内に設計する。
実験の結果,本手法は一般的なベンチマークで最先端の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 4.95394574147086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is an ill-posed problem as the same 2D image can
be projected from infinite 3D scenes. Although the leading algorithms in this
field have reported significant improvement, they are essentially geared to the
particular compound of pictorial observations and camera parameters (i.e.,
intrinsics and extrinsics), strongly limiting their generalizability in
real-world scenarios. To cope with this challenge, this paper proposes a novel
ground embedding module to decouple camera parameters from pictorial cues, thus
promoting the generalization capability. Given camera parameters, the proposed
module generates the ground depth, which is stacked with the input image and
referenced in the final depth prediction. A ground attention is designed in the
module to optimally combine ground depth with residual depth. Our ground
embedding is highly flexible and lightweight, leading to a plug-in module that
is amenable to be integrated into various depth estimation networks.
Experiments reveal that our approach achieves the state-of-the-art results on
popular benchmarks, and more importantly, renders significant generalization
improvement on a wide range of cross-domain tests.
- Abstract(参考訳): 同じ2D画像が無限の3Dシーンから投影できるため、単眼深度推定は不適切な問題である。
この分野の指導的アルゴリズムは著しい改善を報告しているが、それらは本質的には、実世界のシナリオにおいてその一般化可能性を強く制限する、画像観察とカメラパラメータ(すなわち内在性と外在性)の特定の複合に向けられている。
この課題に対処するため,本論文では,カメラパラメータを画像的手がかりから切り離すための新しい接地埋め込みモジュールを提案する。
カメラパラメータが与えられたとき、提案されたモジュールは、入力画像に積み重ねられ、最終深度予測で参照される地上深度を生成する。
地下深度と残留深度を最適に組み合わせるために、地上の注意をモジュール内に設計する。
地中埋め込みは非常に柔軟で軽量で,様々な深度推定ネットワークに統合可能なプラグインモジュールが実現されている。
実験の結果,提案手法は一般的なベンチマークにおいて最先端の結果を達成し,さらに重要な点として,広範囲なクロスドメインテストにおいて大幅な一般化が達成されることがわかった。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - NDDepth: Normal-Distance Assisted Monocular Depth Estimation [22.37113584192617]
単眼深度推定のための新しい物理(幾何学)駆動深度学習フレームワークを提案する。
そこで我々は,各位置における深度を導出するために,画素レベル表面の正規化と平面-オリジン距離を出力する新しい正規距離ヘッドを提案する。
我々は,深度不確実性に応じて相補的に深度を洗練する効果的なコントラッシブ・イテレーティブ・リファインメント・モジュールを開発した。
論文 参考訳(メタデータ) (2023-09-19T13:05:57Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Facial Depth and Normal Estimation using Single Dual-Pixel Camera [81.02680586859105]
DP指向のDepth/Normalネットワークを導入し,3次元顔形状を再構成する。
これは、メートル法スケールでの深度マップと表面正規を含む、対応する地上3次元モデルを含んでいる。
近年のDPベース深度/正規推定法で最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-11-25T05:59:27Z) - EdgeConv with Attention Module for Monocular Depth Estimation [4.239147046986999]
正確な深度マップを生成するためには,モデルがシーンの構造情報を学習することが重要である。
単眼深度推定の難しさを解決するために,Patch-Wise EdgeConv Module (PEM) と EdgeConv Attention Module (EAM) を提案する。
提案手法は,NYU Depth V2 と KITTI スプリットの2つの一般的なデータセットを用いて評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-06-16T08:15:20Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。