論文の概要: Large Depth Completion Model from Sparse Observations
- arxiv url: http://arxiv.org/abs/2605.30115v1
- Date: Thu, 28 May 2026 15:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.452789
- Title: Large Depth Completion Model from Sparse Observations
- Title(参考訳): スパース観測による大深度補完モデル
- Authors: Zhu Yu, Zhengyi Zhao, Runmin Zhang, Lingteng Qiu, Kejie Qiu, Yisheng He, Siyu Zhu, Zilong Dong, Si-Yuan Cao, Hui-Liang Shen,
- Abstract要約: LDCM(Large Depth Completion Model, Large Depth Completion Model)は、スパース観測による単視点距離深度推定のための、シンプルで効果的で堅牢なフレームワークである。
LDCMは変圧器を用いて計量精度の高い密度深度マップを生成する。
- 参考スコア(独自算出の注目度): 28.01552819701954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents the Large Depth Completion Model (LDCM), a simple, effective, and robust framework for single-view metric depth estimation with sparse observations. Without relying on complex architectural designs, LDCM generates metric-accurate dense depth maps using a transformer. It outperforms existing approaches across diverse datasets and sparse observations. We achieve this from two key perspectives: (1) leveraging existing monocular foundation models to improve the quality of sparse depth inputs, and (2) reformulating training objectives to better capture geometric structure and metric consistency. Specifically, a Poisson-based depth initialization strategy is first introduced to generate a uniform coarse dense depth map from diverse sparse observations, providing a strong structural prior for the network. Regarding the training objective, we replace the conventional depth head with a point map head that regresses per-pixel 3D coordinates in camera space, enabling the model to directly learn the underlying 3D scene structure instead of performing pixel-wise depth map restoration. Moreover, this design eliminates the need for camera intrinsic parameters, allowing LDCM to naturally produce metric-scaled 3D point maps. Extensive experiments demonstrate that LDCM consistently outperforms state-of-the-art methods across multiple benchmarks and varying sparsity levels in both depth completion and point map estimation, showcasing its effectiveness and strong generalization to unseen data distributions.
- Abstract(参考訳): 本研究は,スパース観測による単視点距離深度推定のための簡易かつ効果的で堅牢なフレームワークであるLarge Depth Completion Model (LDCM)を提示する。
複雑なアーキテクチャ設計を頼らずに、LDCMは変圧器を用いて計量精度の高い深度マップを生成する。
さまざまなデータセットとスパース観測で、既存のアプローチよりも優れています。
1) 既存の単分子基盤モデルを利用してスパース深度入力の質を向上させること,(2) 幾何学的構造と計量的整合性をよりよく捉えるためのトレーニング目標を再構築すること,の2つの重要な視点からこれを達成している。
特に、ポアソンに基づく深度初期化戦略を導入し、多様なスパース観測から均一な粗い深度マップを生成し、ネットワークに強い構造を与える。
トレーニング対象については,従来の深度ヘッドをカメラ空間内の画素ごとの3D座標を回帰する点マップヘッドに置き換えることで,画素単位の深度マップ復元を行う代わりに,基礎となる3Dシーン構造を直接学習することができる。
さらに、この設計により、カメラ固有のパラメータが不要になり、LDCMは自然にメートルスケールの3Dポイントマップを作成できる。
総合的な実験により、LDCMは複数のベンチマークで常に最先端の手法より優れており、深さの完了と点マップ推定の両方において、ばらつきのレベルが変化しており、その効果と、見つからないデータ分布への強い一般化を示している。
関連論文リスト
- Propagating Sparse Depth via Depth Foundation Model for Out-of-Distribution Depth Completion [33.854696587141355]
本研究では,大規模トレーニングを伴わずに,深度基礎モデルを利用して顕著な堅牢性を実現する新しい深度補修フレームワークを提案する。
具体的には、深度基盤モデルを用いて、RGB画像から構造的・意味的文脈を含む環境条件を抽出し、疎度情報の欠落領域への伝播を誘導する。
我々のフレームワークはOODシナリオにおいて非常によく機能し、既存の最先端の深度補完手法よりも優れています。
論文 参考訳(メタデータ) (2025-08-07T02:38:24Z) - Refinement of Monocular Depth Maps via Multi-View Differentiable Rendering [6.372979654151044]
現在の最先端のモノクル深度推定器は、広範囲なデータセットで訓練され、よく一般化されているが、多くのアプリケーションに必要な3D一貫性が欠如している。
本稿では,これらの一般化単分子深度推定手法の強度を多視点データと組み合わせ,これを解析・合成最適化問題としてフレーミングする。
提案手法は,室内シナリオの難易度においても,詳細な,高品質なビュー一貫性のある,正確な深度マップを生成でき,また,そのようなデータセット上での最先端のマルチビュー深度再構成手法よりも優れる。
論文 参考訳(メタデータ) (2024-10-04T18:50:28Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。