論文の概要: DidSee: Diffusion-Based Depth Completion for Material-Agnostic Robotic Perception and Manipulation
- arxiv url: http://arxiv.org/abs/2506.21034v1
- Date: Thu, 26 Jun 2025 06:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.996221
- Title: DidSee: Diffusion-Based Depth Completion for Material-Agnostic Robotic Perception and Manipulation
- Title(参考訳): DidSee:材料に依存しないロボットの知覚と操作のための拡散に基づく深さ補完
- Authors: Wenzhou Lyu, Jialing Lin, Wenqi Ren, Ruihao Xia, Feng Qian, Yang Tang,
- Abstract要約: 商用のRGB-Dカメラは、非ランベルト的対象に対するノイズの多い不完全な深度マップをしばしば生成する。
我々は,非ランベルト的オブジェクト上での深度補完のための拡散に基づくフレームワークである textbfDidSee を提案する。
DidSeeは、複数のベンチマークで最先端のパフォーマンスを達成し、堅牢な現実世界の一般化を示し、下流タスクを効果的に改善する。
- 参考スコア(独自算出の注目度): 33.87636820220007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commercial RGB-D cameras often produce noisy, incomplete depth maps for non-Lambertian objects. Traditional depth completion methods struggle to generalize due to the limited diversity and scale of training data. Recent advances exploit visual priors from pre-trained text-to-image diffusion models to enhance generalization in dense prediction tasks. However, we find that biases arising from training-inference mismatches in the vanilla diffusion framework significantly impair depth completion performance. Additionally, the lack of distinct visual features in non-Lambertian regions further hinders precise prediction. To address these issues, we propose \textbf{DidSee}, a diffusion-based framework for depth completion on non-Lambertian objects. First, we integrate a rescaled noise scheduler enforcing a zero terminal signal-to-noise ratio to eliminate signal leakage bias. Second, we devise a noise-agnostic single-step training formulation to alleviate error accumulation caused by exposure bias and optimize the model with a task-specific loss. Finally, we incorporate a semantic enhancer that enables joint depth completion and semantic segmentation, distinguishing objects from backgrounds and yielding precise, fine-grained depth maps. DidSee achieves state-of-the-art performance on multiple benchmarks, demonstrates robust real-world generalization, and effectively improves downstream tasks such as category-level pose estimation and robotic grasping.Project page: https://wenzhoulyu.github.io/DidSee/
- Abstract(参考訳): 商用のRGB-Dカメラは、非ランベルト的対象に対するノイズの多い不完全な深度マップをしばしば生成する。
従来の深度補完法は、限られた多様性と訓練データの規模のために一般化に苦慮している。
近年の進歩は、事前訓練されたテキスト-画像拡散モデルからの視覚的先行性を利用して、密集予測タスクの一般化を強化する。
しかし,バニラ拡散フレームワークのトレーニング・推論ミスマッチに起因するバイアスは,深さ完了性能を著しく損なうことが判明した。
さらに、非ランベルト地域での視覚的特徴の欠如は、より正確な予測を妨げている。
これらの問題に対処するために、非ランベルト的オブジェクトの深度補完のための拡散ベースのフレームワークである \textbf{DidSee} を提案する。
まず,信号漏洩バイアスを除去するために,ゼロ終端信号対雑音比を強制する再スケールノイズスケジューラを統合する。
第2に、露光バイアスによる誤差蓄積を緩和し、タスク固有の損失でモデルを最適化するために、ノイズ非依存の単一ステップトレーニング定式化を考案する。
最後に,統合的な深度補完とセマンティックセグメンテーションを可能にするセマンティックエンハンサーを導入し,背景からオブジェクトを識別し,精密できめ細かな深度マップを生成する。
DidSeeは、複数のベンチマークで最先端のパフォーマンスを達成し、堅牢な現実世界の一般化を示し、カテゴリレベルのポーズ推定やロボットの把握といった下流タスクを効果的に改善する。
関連論文リスト
- Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。
本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。
われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文 参考訳(メタデータ) (2025-05-15T17:59:50Z) - TransDiff: Diffusion-Based Method for Manipulating Transparent Objects Using a Single RGB-D Image [9.242427101416226]
デスクトップ上での材料に依存しない物体の把握を実現するため,単一ビューのRGB-D-based depth completion frameworkであるTransDiffを提案する。
我々は,RGB画像から抽出した特徴(セグメンテーション,エッジマップ,正規マップなど)を,深度マップ生成プロセスの条件として活用する。
提案手法は,ランダムな深度分布を深度マップに変換する反復的復調過程を学習し,初期改良された深度情報を用いて導出する。
論文 参考訳(メタデータ) (2025-03-17T03:29:37Z) - Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior [15.802986215292309]
本研究では,アフィン不変深度拡散モデルとテスト時間アライメントからなるゼロショット深度補完法を提案する。
提案手法では,アフィン不変深度を計量スケールのスパース測定と整合させ,テスト時に最適化ループを通した厳密な制約として適用する。
論文 参考訳(メタデータ) (2025-02-10T10:38:33Z) - Revisiting Gradient-based Uncertainty for Monocular Depth Estimation [10.502852645001882]
単分子深度推定モデルに対する勾配に基づく不確実性推定を導入する。
我々は,本手法が再トレーニングを伴わずに不確実性を決定するのに有効であることを実証した。
特に、単分子配列で訓練されたモデルにおいて、最も不確実性が高いため、本手法は関連するアプローチよりも優れる。
論文 参考訳(メタデータ) (2025-02-09T17:21:41Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Monocular Depth Estimation using Diffusion Models [39.27361388836347]
トレーニングデータにおけるノイズや不完全な深度マップに起因する問題に対処するイノベーションを導入する。
教師付き訓練におけるデータの可用性の限界に対処するために,自己教師付き画像-画像間翻訳タスクの事前学習を利用する。
我々のDepthGenモデルは、屋内のNYUデータセット上で、および屋外のKITTIデータセット上でのSOTA結果に近いSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-02-28T18:08:21Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Robust Depth Completion with Uncertainty-Driven Loss Functions [60.9237639890582]
本研究では,不確実性による損失関数を導入し,深度補修の堅牢性を改善し,深度補修の不確実性に対処する。
提案手法は,KITTI深度評価ベンチマークでテストされ,MAE, IMAE, IRMSEの計測値を用いて最先端のロバスト性性能を達成した。
論文 参考訳(メタデータ) (2021-12-15T05:22:34Z) - Object-aware Monocular Depth Prediction with Instance Convolutions [72.98771405534937]
本稿では,特徴集合を避けるために明示的に調整された新しい畳み込み演算子を提案する。
提案手法は,部分ごとの深度をスーパーピクセルで推定する。
NYUv2とiBimsデータセットに対する我々の評価は、インスタンスの畳み込みの優位性を明確に示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:48Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。