論文の概要: Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos
- arxiv url: http://arxiv.org/abs/2106.03505v1
- Date: Mon, 7 Jun 2021 10:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 08:04:32.122171
- Title: Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos
- Title(参考訳): オンボード映像を用いたグローバル知覚と幾何学的スムースネスを利用した自己教師付き深さ推定
- Authors: Shaocheng Jia, Xin Pei, Wei Yao and S.C. Wong
- Abstract要約: 我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
- 参考スコア(独自算出の注目度): 0.5276232626689566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised depth estimation has drawn much attention in recent years as
it does not require labeled data but image sequences. Moreover, it can be
conveniently used in various applications, such as autonomous driving,
robotics, realistic navigation, and smart cities. However, extracting global
contextual information from images and predicting a geometrically natural depth
map remain challenging. In this paper, we present DLNet for pixel-wise depth
estimation, which simultaneously extracts global and local features with the
aid of our depth Linformer block. This block consists of the Linformer and
innovative soft split multi-layer perceptron blocks. Moreover, a
three-dimensional geometry smoothness loss is proposed to predict a
geometrically natural depth map by imposing the second-order smoothness
constraint on the predicted three-dimensional point clouds, thereby realizing
improved performance as a byproduct. Finally, we explore the multi-scale
prediction strategy and propose the maximum margin dual-scale prediction
strategy for further performance improvement. In experiments on the KITTI and
Make3D benchmarks, the proposed DLNet achieves performance competitive to those
of the state-of-the-art methods, reducing time and space complexities by more
than $62\%$ and $56\%$, respectively. Extensive testing on various real-world
situations further demonstrates the strong practicality and generalization
capability of the proposed model.
- Abstract(参考訳): 近年,ラベル付きデータではなく画像シーケンスを必要とするため,自己教師付き深度推定が注目されている。
さらに、自律運転、ロボット工学、現実的なナビゲーション、スマートシティなど、さまざまなアプリケーションで使用することができる。
しかし、画像からグローバルな文脈情報を抽出し、幾何学的に自然な深度マップを予測することは依然として困難である。
本稿では,Linformerブロックを用いてグローバルな特徴と局所的な特徴を同時に抽出する,画素単位の深度推定のためのDLNetを提案する。
このブロックはLinformerと革新的なソフトスプリット多層パーセプトロンブロックで構成されている。
さらに, 予測された3次元点雲に2階の滑らかさ制約を課し, 副生成物としての性能向上を実現することにより, 幾何学的に自然な深度マップを予測できる3次元形状の滑らかさ損失を提案する。
最後に,マルチスケール予測戦略を検討し,性能向上のための最大マージンデュアルスケール予測戦略を提案する。
KITTI と Make3D ベンチマークの実験では,提案した DLNet は最先端の手法に比較して性能を向上し,時間と空間の複雑さをそれぞれ 62\%$ と 56\%$ に削減した。
実世界の様々な状況における広範囲なテストは、提案モデルの強力な実用性と一般化能力を示す。
関連論文リスト
- GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Self-Supervised Depth Completion Guided by 3D Perception and Geometry
Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。
NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-23T14:19:56Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth
Approach with Saddle-shaped Depth Cells [23.345139129458122]
同じ深度予測誤差を用いても、異なる深度ジオメトリには大きな性能ギャップがあることが示される。
サドル形状のセルからなる理想的な深度幾何学を導入し, 予測深度マップは地表面を上下に振動する。
また,本手法は,MVSにおける深度幾何学の新たな研究方向を示す。
論文 参考訳(メタデータ) (2023-07-18T11:37:53Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。