論文の概要: Scale Propagation Network for Generalizable Depth Completion
- arxiv url: http://arxiv.org/abs/2410.18408v1
- Date: Thu, 24 Oct 2024 03:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:09.092797
- Title: Scale Propagation Network for Generalizable Depth Completion
- Title(参考訳): 一般化可能な深度補完のためのスケール伝搬ネットワーク
- Authors: Haotian Wang, Meng Yang, Xinhu Zheng, Gang Hua,
- Abstract要約: 入力から出力までのスケールを伝搬する新しいスケール伝搬正規化法(SP-Norm)を提案する。
また,SP-NormとConvNeXt V2のバックボーンをベースとした新しいネットワークアーキテクチャを開発した。
我々のモデルは、最先端の手法と比較して、高速かつ低メモリで常に最高の精度を達成している。
- 参考スコア(独自算出の注目度): 16.733495588009184
- License:
- Abstract: Depth completion, inferring dense depth maps from sparse measurements, is crucial for robust 3D perception. Although deep learning based methods have made tremendous progress in this problem, these models cannot generalize well across different scenes that are unobserved in training, posing a fundamental limitation that yet to be overcome. A careful analysis of existing deep neural network architectures for depth completion, which are largely borrowing from successful backbones for image analysis tasks, reveals that a key design bottleneck actually resides in the conventional normalization layers. These normalization layers are designed, on one hand, to make training more stable, on the other hand, to build more visual invariance across scene scales. However, in depth completion, the scale is actually what we want to robustly estimate in order to better generalize to unseen scenes. To mitigate, we propose a novel scale propagation normalization (SP-Norm) method to propagate scales from input to output, and simultaneously preserve the normalization operator for easy convergence. More specifically, we rescale the input using learned features of a single-layer perceptron from the normalized input, rather than directly normalizing the input as conventional normalization layers. We then develop a new network architecture based on SP-Norm and the ConvNeXt V2 backbone. We explore the composition of various basic blocks and architectures to achieve superior performance and efficient inference for generalizable depth completion. Extensive experiments are conducted on six unseen datasets with various types of sparse depth maps, i.e., randomly sampled 0.1\%/1\%/10\% valid pixels, 4/8/16/32/64-line LiDAR points, and holes from Structured-Light. Our model consistently achieves the best accuracy with faster speed and lower memory when compared to state-of-the-art methods.
- Abstract(参考訳): 疎度測定から深度マップを推定する深度完備化は、堅牢な3次元知覚に不可欠である。
ディープラーニングに基づく手法はこの問題において大きな進歩を遂げているが、これらのモデルはトレーニングで観察されていない様々な場面でうまく一般化することができず、克服されていない基本的な制限を呈している。
画像解析タスクで成功したバックボーンから大きく借用されているディープニューラルネットワークアーキテクチャを慎重に分析すると、重要な設計ボトルネックが従来の正規化レイヤに実際に存在していることが分かる。
これらの正規化レイヤは、一方的に、トレーニングをより安定させ、他方で、シーンスケールをまたいだより視覚的な不変性を構築するように設計されています。
しかし、ディープ・コンプリートにおいて、このスケールは、目に見えないシーンをより一般化するために、実際に私たちがしっかりと見積りたいものなのです。
そこで本研究では,入力から出力までのスケールを伝搬するSP-Norm法を提案する。
具体的には、従来の正規化層として入力を直接正規化するのではなく、単一層パーセプトロンの学習特徴を用いて入力を再スケールする。
次に、SP-NormとConvNeXt V2のバックボーンに基づく新しいネットワークアーキテクチャを開発する。
様々な基本ブロックとアーキテクチャの構成を探索し、より優れた性能と効率的な推論を行い、一般化可能な深度補完を実現する。
様々な種類のスパース深度マップを持つ6つの未知のデータセット、すなわち、ランダムにサンプリングされた0.1\%/1\%/10\%有効画素、4/8/16/32/64ラインのLiDAR点、および構造化光の穴について、広範囲にわたる実験を行った。
我々のモデルは、最先端の手法と比較して、高速かつ低メモリで常に最高の精度を達成している。
関連論文リスト
- NeuralGF: Unsupervised Point Normal Estimation by Learning Neural
Gradient Function [55.86697795177619]
3次元点雲の正規推定は3次元幾何処理の基本的な課題である。
我々は,ニューラルネットワークが入力点雲に適合することを奨励する,ニューラルグラデーション関数の学習のための新しいパラダイムを導入する。
広範に使用されているベンチマークの優れた結果から,本手法は非指向性および指向性正常推定タスクにおいて,より正確な正規性を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-01T09:25:29Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - Towards Domain-agnostic Depth Completion [28.25756709062647]
既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域をまたいだ一般化が不十分である。
各種センサで得られたスパース/セミデンス,ノイズ,および低分解能深度マップを完備する手法を提案する。
本手法は,最先端の深度補完法に対して優れたクロスドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2022-07-29T04:10:22Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Attention Aware Cost Volume Pyramid Based Multi-view Stereo Network for
3D Reconstruction [12.728154351588053]
マルチビュー画像から3次元再構成を行うための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
高分解能深度を実現するために粗粒度深度推論戦略を導入する。
論文 参考訳(メタデータ) (2020-11-25T13:34:11Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Deep feature fusion for self-supervised monocular depth prediction [7.779007880126907]
スクラッチから自己教師付き深度を学習するための深部特徴融合法を提案する。
核融合ネットワークはエンコーダネットワークの各レベルにおける上層と下層の両方の機能を選択する。
また,高次深度と低次深度深度から高次残留深度を学習する改良モジュールを提案する。
論文 参考訳(メタデータ) (2020-05-16T09:42:36Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。