論文の概要: GeoSurDepth: Spatial Geometry-Consistent Self-Supervised Depth Estimation for Surround-View Cameras
- arxiv url: http://arxiv.org/abs/2601.05839v1
- Date: Fri, 09 Jan 2026 15:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.99755
- Title: GeoSurDepth: Spatial Geometry-Consistent Self-Supervised Depth Estimation for Surround-View Cameras
- Title(参考訳): GeoSurDepth:空間幾何学-一貫した自己監督深度推定
- Authors: Weimin Liu, Wenjun Wang, Joshua H. Meng,
- Abstract要約: GeoSurDepthは、サラウンドビューの深さ推定のための主要なキューとして、幾何整合性を利用するフレームワークである。
筆者らのフレームワークは,頑健な自己教師付き多視点深度推定のための幾何学的コヒーレンスと一貫性を活用することの重要性を強調した。
- 参考スコア(独自算出の注目度): 3.072321170197384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate surround-view depth estimation provides a competitive alternative to laser-based sensors and is essential for 3D scene understanding in autonomous driving. While prior studies have proposed various approaches that primarily focus on enforcing cross-view constraints at the photometric level, few explicitly exploit the rich geometric structure inherent in both monocular and surround-view setting. In this work, we propose GeoSurDepth, a framework that leverages geometry consistency as the primary cue for surround-view depth estimation. Concretely, we utilize foundation models as a pseudo geometry prior and feature representation enhancement tool to guide the network to maintain surface normal consistency in spatial 3D space and regularize object- and texture-consistent depth estimation in 2D. In addition, we introduce a novel view synthesis pipeline where 2D-3D lifting is achieved with dense depth reconstructed via spatial warping, encouraging additional photometric supervision across temporal, spatial, and spatial-temporal contexts, and compensating for the limitations of single-view image reconstruction. Finally, a newly-proposed adaptive joint motion learning strategy enables the network to adaptively emphasize informative spatial geometry cues for improved motion reasoning. Extensive experiments on DDAD and nuScenes demonstrate that GeoSurDepth achieves state-of-the-art performance, validating the effectiveness of our approach. Our framework highlights the importance of exploiting geometry coherence and consistency for robust self-supervised multi-view depth estimation.
- Abstract(参考訳): 正確なサラウンドビュー深度推定は、レーザーベースのセンサーと競合する代替手段となり、自律運転における3Dシーン理解に不可欠である。
以前の研究では、主に光度レベルでのクロスビュー制約の強制に焦点を当てた様々なアプローチが提案されているが、モノクラーとサラウンドビューの両方に固有のリッチな幾何学的構造を明示的に活用することはほとんどない。
本研究では,周囲の深度を推定するための主要なキューとして,幾何の整合性を利用するフレームワークであるGeoSurDepthを提案する。
具体的には、基礎モデルを擬似幾何学的先行と特徴表現拡張ツールとして利用し、空間3次元空間における表面の正常な整合性を維持し、2次元における物体とテクスチャに一貫性のある深さ推定を規則化するためにネットワークを誘導する。
さらに,2次元3次元浮揚を空間的ワーピングによって再現し,時間的・空間的・空間的・時間的文脈にまたがる光度監視を奨励し,一視点画像再構成の限界を補償する,新しいビュー合成パイプラインを導入する。
最後に、新たに提案された適応的な関節運動学習戦略により、ネットワークは、動き推論を改善するための情報空間幾何学的手がかりを適応的に強調することができる。
DDADとnuScenesの大規模な実験により、GeoSurDepthは最先端のパフォーマンスを実現し、我々のアプローチの有効性を検証した。
筆者らのフレームワークは,頑健な自己教師付き多視点深度推定のための幾何学的コヒーレンスと一貫性を活用することの重要性を強調した。
関連論文リスト
- Depth-Consistent 3D Gaussian Splatting via Physical Defocus Modeling and Multi-View Geometric Supervision [12.972772139292957]
本稿では,フィールド深度監視と多視点整合性監視を統合した新しい計算フレームワークを提案する。
マルチビュー幾何学的制約でデフォーカス物理を統一することにより,最先端のPSNR法よりも0.8dBのPSNRを改良した深度忠実度を実現する。
論文 参考訳(メタデータ) (2025-11-13T13:51:16Z) - Doctoral Thesis: Geometric Deep Learning For Camera Pose Prediction, Registration, Depth Estimation, and 3D Reconstruction [1.8782750537161614]
この論文は、3Dビジョンの基本的な課題に対する解決策を提供する。
カメラポーズ推定,点雲登録,深度予測,3次元再構成などの重要なタスクに適した幾何学的深層学習手法を開発する。
デジタル文化遺産保存や没入型VR/AR環境など、現実世界のアプリケーションで有効性を示すものだ。
論文 参考訳(メタデータ) (2025-09-02T01:35:44Z) - Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文 参考訳(メタデータ) (2025-08-25T17:11:53Z) - Seurat: From Moving Points to Depth [66.65189052568209]
本研究では,2次元軌跡の空間的関係と時間的変化を調べ,相対的な深度を推定する手法を提案する。
提案手法は,様々な領域にわたる時間的スムーズかつ高精度な深度予測を実現する。
論文 参考訳(メタデータ) (2025-04-20T17:37:02Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。