論文の概要: Towards Ambiguity-Free Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity
- arxiv url: http://arxiv.org/abs/2503.06014v1
- Date: Sat, 08 Mar 2025 02:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:07.692154
- Title: Towards Ambiguity-Free Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity
- Title(参考訳): あいまいさのない空間基盤モデルに向けて:深度あいまいさの再考とデカップリング
- Authors: Xiaohao Xu, Feng Xue, Xiang Li, Haowei Li, Shusheng Yang, Tianyi Zhang, Matthew Johnson-Roberson, Xiaonan Huang,
- Abstract要約: 決定論的予測に限定された既存のモデルは、現実世界の多層深度を見落としている。
単一予測から多仮説空間基盤モデルへのパラダイムシフトを導入する。
- 参考スコア(独自算出の注目度): 20.86484181698326
- License:
- Abstract: Depth ambiguity is a fundamental challenge in spatial scene understanding, especially in transparent scenes where single-depth estimates fail to capture full 3D structure. Existing models, limited to deterministic predictions, overlook real-world multi-layer depth. To address this, we introduce a paradigm shift from single-prediction to multi-hypothesis spatial foundation models. We first present \texttt{MD-3k}, a benchmark exposing depth biases in expert and foundational models through multi-layer spatial relationship labels and new metrics. To resolve depth ambiguity, we propose Laplacian Visual Prompting (LVP), a training-free spectral prompting technique that extracts hidden depth from pre-trained models via Laplacian-transformed RGB inputs. By integrating LVP-inferred depth with standard RGB-based estimates, our approach elicits multi-layer depth without model retraining. Extensive experiments validate the effectiveness of LVP in zero-shot multi-layer depth estimation, unlocking more robust and comprehensive geometry-conditioned visual generation, 3D-grounded spatial reasoning, and temporally consistent video-level depth inference. Our benchmark and code will be available at https://github.com/Xiaohao-Xu/Ambiguity-in-Space.
- Abstract(参考訳): 奥行きの曖昧さは空間的なシーン理解における基本的な課題であり、特に1次元推定が完全な3D構造を捉えない透明なシーンにおいてである。
決定論的予測に限定された既存のモデルは、現実世界の多層深度を見落としている。
そこで本研究では,単一述語から多仮説空間基盤モデルへのパラダイムシフトを提案する。
我々はまず,多層空間関係ラベルと新しい指標を用いて,専門家および基礎モデルにおける深度バイアスを明らかにするベンチマークである‘texttt{MD-3k} を提示する。
奥行きの曖昧さを解決するために,ラプラシアン変換RGB入力を介して事前学習したモデルから隠れた深度を抽出する学習不要なスペクトルプロンプト技術であるラプラシアン・ビジュアル・プロンプト(LVP)を提案する。
LVP-inferred depth と標準 RGB-based estimates を統合することにより,モデル再トレーニングを伴わずに多層深度を導出する。
広汎な実験により、ゼロショット多層深度推定におけるLVPの有効性、より堅牢で包括的な幾何条件付き視覚生成、三次元地下空間推論、時間的に一貫したビデオレベルの深度推定の有効性が検証された。
私たちのベンチマークとコードはhttps://github.com/Xiaohao-Xu/Ambiguity-in-Space.orgで公開されます。
関連論文リスト
- Deep Neural Networks for Accurate Depth Estimation with Latent Space Features [0.0]
本研究では,深部畳み込みニューラルネットワークにおける潜時空間特徴を利用した新しい深度推定フレームワークを提案する。
提案モデルでは,2つのエンコーダ・デコーダアーキテクチャを特徴とし,色から深度への変換と深度への変換が可能である。
フレームワークはNYU Depth V2データセットを使用して徹底的にテストされている。
論文 参考訳(メタデータ) (2025-02-17T13:11:35Z) - Revisiting Monocular 3D Object Detection from Scene-Level Depth Retargeting to Instance-Level Spatial Refinement [44.4805861813093]
モノクロ3Dオブジェクト検出は、正確な深さの欠如により困難である。
既存の深度支援ソリューションは依然として性能が劣っている。
深度適応型モノクル3次元物体検出ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T10:51:50Z) - DepthLab: From Partial to Complete [80.58276388743306]
不足する値は、幅広いアプリケーションにわたる深度データにとって共通の課題である。
この作業は、イメージ拡散プリエントを利用した基礎深度塗装モデルであるDepthLabと、このギャップを埋めるものだ。
提案手法は,3Dシーンのインペイント,テキストから3Dシーン生成,DUST3Rによるスパースビュー再構成,LiDAR深度補完など,様々なダウンストリームタスクにおいて有用であることを示す。
論文 参考訳(メタデータ) (2024-12-24T04:16:38Z) - ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction [11.312780421161204]
本稿では,視覚基盤モデルからの視覚的先行情報を活用して,詳細な3D占有率予測を行うViPOccを提案する。
また,効率的な実例認識光サンプリングのための意味誘導型非重複ガウス混合サンプリング器を提案する。
本実験は,3次元占有予測と深度推定の両方において,ViPOccの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-15T15:04:27Z) - Self-Supervised Depth Completion Guided by 3D Perception and Geometry
Consistency [17.68427514090938]
本稿では,3次元の知覚的特徴と多視点幾何整合性を利用して,高精度な自己監督深度補完法を提案する。
NYU-Depthv2 と VOID のベンチマークデータセットを用いた実験により,提案モデルが最先端の深度補完性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-23T14:19:56Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。