論文の概要: Masked Depth Modeling for Spatial Perception
- arxiv url: http://arxiv.org/abs/2601.17895v1
- Date: Sun, 25 Jan 2026 16:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.517331
- Title: Masked Depth Modeling for Spatial Perception
- Title(参考訳): 空間知覚のためのマスケ深度モデリング
- Authors: Bin Tan, Changjiang Sun, Xiage Qin, Hanat Adai, Zelin Fu, Tianxiang Zhou, Han Zhang, Yinghao Xu, Xing Zhu, Yujun Shen, Nan Xue,
- Abstract要約: LingBot-Depthは、ディープマップをマスクしたディープ・モデリングにより洗練するディープ・コンプリート・モデルである。
最上位のRGB-Dカメラよりも、奥行きの精度とピクセルのカバレッジが優れている。
我々は,空間認識のコミュニティに対して,コード,チェックポイント,および3M RGB-depthペアをリリースする。
- 参考スコア(独自算出の注目度): 44.0326843862591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial visual perception is a fundamental requirement in physical-world applications like autonomous driving and robotic manipulation, driven by the need to interact with 3D environments. Capturing pixel-aligned metric depth using RGB-D cameras would be the most viable way, yet it usually faces obstacles posed by hardware limitations and challenging imaging conditions, especially in the presence of specular or texture-less surfaces. In this work, we argue that the inaccuracies from depth sensors can be viewed as "masked" signals that inherently reflect underlying geometric ambiguities. Building on this motivation, we present LingBot-Depth, a depth completion model which leverages visual context to refine depth maps through masked depth modeling and incorporates an automated data curation pipeline for scalable training. It is encouraging to see that our model outperforms top-tier RGB-D cameras in terms of both depth precision and pixel coverage. Experimental results on a range of downstream tasks further suggest that LingBot-Depth offers an aligned latent representation across RGB and depth modalities. We release the code, checkpoint, and 3M RGB-depth pairs (including 2M real data and 1M simulated data) to the community of spatial perception.
- Abstract(参考訳): 空間的な視覚知覚は、自律運転やロボット操作といった物理世界の応用において、基本的な要件である。
RGB-Dカメラでピクセル配列のメートル法深度を捉えることは、最も有効な方法だろうが、ハードウェアの制限や、特に仕様面やテクスチャレス面の存在によって生じる障害に直面している。
本研究では,深度センサの不正確さを,下層の幾何学的曖昧さを本質的に反映した「マスケ」信号とみなすことができると論じる。
このモチベーションを生かしたLingBot-Depthは、視覚的コンテキストを利用して、マスク付き深度モデリングにより深度マップを洗練し、スケーラブルなトレーニングのための自動データキュレーションパイプラインを組み込むディープ・コンプリート・モデルである。
我々のモデルは、奥行きの精度と画素のカバレッジの両方において、上位のRGB-Dカメラよりも優れています。
下流タスクにおける実験結果は、LingBot-DepthがRGBと深度変調をまたいだ一致した潜在表現を提供することをさらに示唆している。
空間認識のコミュニティに対して,コード,チェックポイント,3M RGB-depthペア(実データ2Mとシミュレーションデータ1Mを含む)を公開します。
関連論文リスト
- Geometry-Aware Sparse Depth Sampling for High-Fidelity RGB-D Depth Completion in Robotic Systems [0.20999222360659608]
RGB-Dとステレオビジョンセンサーは、操作、検査、ナビゲーションを行う産業用ロボットシステムに広く使われている。
現在の深度補完法は、センサの限界と環境条件によりノイズ、不完全、あるいは偏りのある深度マップを生成する。
そこで本研究では,RGB-D点クラウド上でのPCAに基づく表面正規分布推定を利用して,画素毎の深度信頼性を算出した正規誘導型スパースサンプリング手法を提案する。
実験により、我々の幾何学的認識されたスパース深度は精度を向上し、エッジや不連続に近いアーティファクトを削減し、より現実的なトレーニング条件を生成することが示された。
論文 参考訳(メタデータ) (2025-12-09T04:14:05Z) - FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。
FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文 参考訳(メタデータ) (2025-10-17T07:36:54Z) - Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation [18.140839442955485]
我々は透明物体の立体深度回復のための視覚変換器に基づくアルゴリズムを開発した。
提案手法は,効率的なデータ生成のためのパラメータ整合,ドメイン適応,物理的に現実的なSim2Realシミュレーションを含む。
実世界のシナリオにおけるSim2Realの例外的な一般化性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-09-13T15:44:38Z) - A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion [10.519644854849098]
室内深度補完のための2段階トランスフォーマーネットワークを提案する。
提案するネットワークは,Matterport3Dデータセット上での最先端性能を実現する。
また, 深度完了作業の重要性を検証するため, 室内3次元再構成に本手法を適用した。
論文 参考訳(メタデータ) (2024-06-14T07:42:27Z) - Beyond Visual Field of View: Perceiving 3D Environment with Echoes and
Vision [51.385731364529306]
本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。
特に、複数の方向から受信したエコーでRGB画像を融合して深度推定を行う。
本稿では,RGB像を補完する3次元構造について,エコーが包括的かつ包括的情報を提供することを示す。
論文 参考訳(メタデータ) (2022-07-03T22:31:47Z) - High-Accuracy RGB-D Face Recognition via Segmentation-Aware Face Depth
Estimation and Mask-Guided Attention Network [16.50097148165777]
ディープラーニングアプローチは、非常に大きな顔画像データセットでモデルをトレーニングすることで、極めて正確な顔認識を実現している。
大規模な2D顔画像データセットが利用可能であるのと異なり、大規模な3D顔データセットが公開されていない。
本稿では,RGB-D顔認識タスクを改善するための2つのCNNモデルを提案する。
論文 参考訳(メタデータ) (2021-12-22T07:46:23Z) - Facial Depth and Normal Estimation using Single Dual-Pixel Camera [81.02680586859105]
DP指向のDepth/Normalネットワークを導入し,3次元顔形状を再構成する。
これは、メートル法スケールでの深度マップと表面正規を含む、対応する地上3次元モデルを含んでいる。
近年のDPベース深度/正規推定法で最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-11-25T05:59:27Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。