論文の概要: DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction
- arxiv url: http://arxiv.org/abs/2209.06351v1
- Date: Wed, 14 Sep 2022 00:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:26:10.208843
- Title: DevNet: Self-supervised Monocular Depth Learning via Density Volume
Construction
- Title(参考訳): DevNet: 密度ボリューム構築による自己教師型単眼深度学習
- Authors: Kaichen Zhou, Lanqing Hong, Changhao Chen, Hang Xu, Chaoqiang Ye,
Qingyong Hu, and Zhenguo Li
- Abstract要約: 単眼画像からの自己教師付き深度学習は、通常、時間的に隣接する画像フレーム間の2Dピクセル単位の光度関係に依存する。
本研究は, 自己教師型単眼深度学習フレームワークであるDevNetを提案する。
- 参考スコア(独自算出の注目度): 51.96971077984869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised depth learning from monocular images normally relies on the
2D pixel-wise photometric relation between temporally adjacent image frames.
However, they neither fully exploit the 3D point-wise geometric
correspondences, nor effectively tackle the ambiguities in the photometric
warping caused by occlusions or illumination inconsistency. To address these
problems, this work proposes Density Volume Construction Network (DevNet), a
novel self-supervised monocular depth learning framework, that can consider 3D
spatial information, and exploit stronger geometric constraints among adjacent
camera frustums. Instead of directly regressing the pixel value from a single
image, our DevNet divides the camera frustum into multiple parallel planes and
predicts the pointwise occlusion probability density on each plane. The final
depth map is generated by integrating the density along corresponding rays.
During the training process, novel regularization strategies and loss functions
are introduced to mitigate photometric ambiguities and overfitting. Without
obviously enlarging model parameters size or running time, DevNet outperforms
several representative baselines on both the KITTI-2015 outdoor dataset and
NYU-V2 indoor dataset. In particular, the root-mean-square-deviation is reduced
by around 4% with DevNet on both KITTI-2015 and NYU-V2 in the task of depth
estimation. Code is available at https://github.com/gitkaichenzhou/DevNet.
- Abstract(参考訳): 単眼画像からの自己教師付き深度学習は通常、時間的に隣接した画像フレーム間の2Dピクセル単位の光度関係に依存する。
しかし、彼らは3次元のポイントワイドな幾何学的対応を完全に活用したり、オクルージョンや照明の不整合によって引き起こされる測光歪みの曖昧さに効果的に対処したりはしなかった。
これらの問題に対処するために, 近接するカメラフラストタル間の強い幾何学的制約を生かし, 3次元空間情報を考慮した自己教師付き単眼深度学習フレームワークDevNetを提案する。
私たちのDevNetは、1枚の画像からピクセル値を直接回帰する代わりに、カメラフラストレーションを複数の平行平面に分割し、各平面上のポイントワイド閉塞確率密度を予測する。
最終深度マップは、対応する光線に沿って密度を統合することによって生成される。
トレーニング過程では、光量曖昧さと過剰フィッティングを緩和するために、新しい正規化戦略と損失関数が導入される。
明らかにモデルパラメータのサイズや実行時間を大きくすることなく、DevNetは、KITTI-2015屋外データセットとNYU-V2屋内データセットの両方において、いくつかの代表的ベースラインを上回っている。
特に、深さ推定のタスクでは、KITTI-2015とNYU-V2の両方でDevNetにより、ルート平均平方偏差が約4%減少する。
コードはhttps://github.com/gitkaichenzhou/devnetで入手できる。
関連論文リスト
- SLCF-Net: Sequential LiDAR-Camera Fusion for Semantic Scene Completion using a 3D Recurrent U-Net [18.342569823885864]
SLCF-Netは、LiDARとカメラデータを逐次融合するSemantic Scene Completionタスクの新しいアプローチである。
それは、RGB画像のシーケンスと疎LiDAR測定から、シーンの欠落した幾何学と意味を共同で推定する。
すべてのSSC測定値に優れ、時間的整合性を示す。
論文 参考訳(メタデータ) (2024-03-13T18:12:53Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - DeepFusion: Real-Time Dense 3D Reconstruction for Monocular SLAM using
Single-View Depth and Gradient Predictions [22.243043857097582]
DeepFusionは、GPU上でリアルタイムに高密度な再構成を生成することができる。
半密度多視点ステレオアルゴリズムの出力とCNNの深さと予測を確率的に融合する。
合成および実世界のデータセットのパフォーマンスに基づいて、DeepFusionは、少なくとも他の同等のシステムと同様に、実行可能であることを実証する。
論文 参考訳(メタデータ) (2022-07-25T14:55:26Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。