論文の概要: TransDiff: Diffusion-Based Method for Manipulating Transparent Objects Using a Single RGB-D Image
- arxiv url: http://arxiv.org/abs/2503.12779v1
- Date: Mon, 17 Mar 2025 03:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:44.255152
- Title: TransDiff: Diffusion-Based Method for Manipulating Transparent Objects Using a Single RGB-D Image
- Title(参考訳): TransDiff:単一RGB-D画像を用いた透明物体の拡散法
- Authors: Haoxiao Wang, Kaichen Zhou, Binrui Gu, Zhiyuan Feng, Weijie Wang, Peilin Sun, Yicheng Xiao, Jianhua Zhang, Hao Dong,
- Abstract要約: デスクトップ上での材料に依存しない物体の把握を実現するため,単一ビューのRGB-D-based depth completion frameworkであるTransDiffを提案する。
我々は,RGB画像から抽出した特徴(セグメンテーション,エッジマップ,正規マップなど)を,深度マップ生成プロセスの条件として活用する。
提案手法は,ランダムな深度分布を深度マップに変換する反復的復調過程を学習し,初期改良された深度情報を用いて導出する。
- 参考スコア(独自算出の注目度): 9.242427101416226
- License:
- Abstract: Manipulating transparent objects presents significant challenges due to the complexities introduced by their reflection and refraction properties, which considerably hinder the accurate estimation of their 3D shapes. To address these challenges, we propose a single-view RGB-D-based depth completion framework, TransDiff, that leverages the Denoising Diffusion Probabilistic Models(DDPM) to achieve material-agnostic object grasping in desktop. Specifically, we leverage features extracted from RGB images, including semantic segmentation, edge maps, and normal maps, to condition the depth map generation process. Our method learns an iterative denoising process that transforms a random depth distribution into a depth map, guided by initially refined depth information, ensuring more accurate depth estimation in scenarios involving transparent objects. Additionally, we propose a novel training method to better align the noisy depth and RGB image features, which are used as conditions to refine depth estimation step by step. Finally, we utilized an improved inference process to accelerate the denoising procedure. Through comprehensive experimental validation, we demonstrate that our method significantly outperforms the baselines in both synthetic and real-world benchmarks with acceptable inference time. The demo of our method can be found on https://wang-haoxiao.github.io/TransDiff/
- Abstract(参考訳): 透明物体を操作することは、反射と屈折特性によって引き起こされる複雑さによって重要な課題を示し、3次元形状の正確な推定をかなり妨げている。
これらの課題に対処するため,本研究では,Denoising Diffusion Probabilistic Models (DDPM) を利用した一視点RGB-D-based depth completion frameworkであるTransDiffを提案する。
具体的には, セマンティックセグメンテーション, エッジマップ, 正規マップなどのRGB画像から抽出した特徴を活用し, 深度マップ生成プロセスの条件付けを行う。
提案手法は,ランダムな深度分布を深度マップに変換する反復的復調過程を学習し,初期改良された深度情報によって導かれることにより,透明物体を含むシナリオにおいてより正確な深度推定を実現する。
また,ノイズ深度とRGB画像の特徴の整合性を向上する新たなトレーニング手法を提案する。
最後に,提案手法の高速化のために改良された推論手法を用いた。
総合的な実験的検証を通じて,本手法は,合成ベンチマークと実世界のベンチマークのベースラインを許容時間で大幅に上回ることを示す。
私たちのメソッドのデモはhttps://wang-haoxiao.github.io/TransDiff/で見ることができます。
関連論文リスト
- Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。
単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。
Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文 参考訳(メタデータ) (2024-12-18T00:06:41Z) - Transparent Object Depth Completion [11.825680661429825]
理解と操作のための透明な物体の認識は、依然として大きな課題である。
深度マップに大きく依存する既存のロボットグリップ法は、その独特の視覚特性のために透明な物体には適さない。
本稿では,一視点RGB-Dに基づく深度推定と多視点深度推定の長所を組み合わせた,透明物体深度補完のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:38:06Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - DiffusionDepth: Diffusion Denoising Approach for Monocular Depth
Estimation [23.22005119986485]
DiffusionDepthは、単分子深度推定をデノナイズ拡散過程として再構成する新しいアプローチである。
ランダムな深度分布をモノラルな視覚条件のガイダンスで深度マップに分解する反復的復調過程を学習する。
KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。
論文 参考訳(メタデータ) (2023-03-09T03:48:24Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。