論文の概要: Rethinking Transparent Object Grasping: Depth Completion with Monocular Depth Estimation and Instance Mask
- arxiv url: http://arxiv.org/abs/2508.02507v1
- Date: Mon, 04 Aug 2025 15:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.396429
- Title: Rethinking Transparent Object Grasping: Depth Completion with Monocular Depth Estimation and Instance Mask
- Title(参考訳): 透明物体グラフプの再考:単眼深度推定とインスタンスマスクによる深度補完
- Authors: Yaofeng Cheng, Xinkai Gao, Sen Zhang, Chao Zeng, Fusheng Zha, Lining Sun, Chenguang Yang,
- Abstract要約: ReMakeは、インスタンスマスクと単眼深度推定によってガイドされる、新しい深度補完フレームワークである。
提案手法は,ベンチマークデータセットと実世界のシナリオの両方において,既存の手法よりも優れている。
- 参考スコア(独自算出の注目度): 10.472380465235629
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Due to the optical properties, transparent objects often lead depth cameras to generate incomplete or invalid depth data, which in turn reduces the accuracy and reliability of robotic grasping. Existing approaches typically input the RGB-D image directly into the network to output the complete depth, expecting the model to implicitly infer the reliability of depth values. However, while effective in training datasets, such methods often fail to generalize to real-world scenarios, where complex light interactions lead to highly variable distributions of valid and invalid depth data. To address this, we propose ReMake, a novel depth completion framework guided by an instance mask and monocular depth estimation. By explicitly distinguishing transparent regions from non-transparent ones, the mask enables the model to concentrate on learning accurate depth estimation in these areas from RGB-D input during training. This targeted supervision reduces reliance on implicit reasoning and improves generalization to real-world scenarios. Additionally, monocular depth estimation provides depth context between the transparent object and its surroundings, enhancing depth prediction accuracy. Extensive experiments show that our method outperforms existing approaches on both benchmark datasets and real-world scenarios, demonstrating superior accuracy and generalization capability. Code and videos are available at https://chengyaofeng.github.io/ReMake.github.io/.
- Abstract(参考訳): 光学特性のため、透明な物体はしばしば深度カメラを誘導し、不完全または無効な深度データを生成する。
既存のアプローチは通常、RGB-D画像をネットワークに直接入力して完全な深さを出力し、モデルが奥行き値の信頼性を暗黙的に推測することを期待する。
しかし、データセットのトレーニングに効果的であるが、複雑な光相互作用が有効で無効な深度データの高度に可変な分布につながるような現実のシナリオに一般化できない場合が多い。
これを解決するために、インスタンスマスクと単眼深度推定によってガイドされる新しい深度補完フレームワークReMakeを提案する。
透明領域と透明領域を明確に区別することにより、トレーニング中のRGB-D入力からこれらの領域の正確な深度推定を学習することに集中することができる。
この目標の監督は暗黙の推論への依存を減らし、現実のシナリオへの一般化を改善する。
さらに、単分子深度推定は透明物体とその周囲の深度コンテキストを提供し、深度予測精度を高める。
大規模な実験により,提案手法はベンチマークデータセットと実世界のシナリオの両方において既存の手法よりも優れており,精度と一般化能力が優れていることが示された。
コードとビデオはhttps://chengyaofeng.github.io/ReMake.github.io/で公開されている。
関連論文リスト
- DCIRNet: Depth Completion with Iterative Refinement for Dexterous Grasping of Transparent and Reflective Objects [9.235004977824026]
透過的および反射的オブジェクトのための新しいマルチモーダルディープコンプリートネットワークであるDCIRNetを提案する。
提案手法は,RGB画像と不完全深度マップ間の補完情報を抽出するための,革新的なマルチモーダル機能融合モジュールを組み込んだものである。
透明で反射的なオブジェクトの把握成功率を44%で改善しました。
論文 参考訳(メタデータ) (2025-06-11T08:04:22Z) - TransDiff: Diffusion-Based Method for Manipulating Transparent Objects Using a Single RGB-D Image [9.242427101416226]
デスクトップ上での材料に依存しない物体の把握を実現するため,単一ビューのRGB-D-based depth completion frameworkであるTransDiffを提案する。
我々は,RGB画像から抽出した特徴(セグメンテーション,エッジマップ,正規マップなど)を,深度マップ生成プロセスの条件として活用する。
提案手法は,ランダムな深度分布を深度マップに変換する反復的復調過程を学習し,初期改良された深度情報を用いて導出する。
論文 参考訳(メタデータ) (2025-03-17T03:29:37Z) - Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion [51.69876947593144]
奥行き完了のための既存の手法は、厳密に制約された設定で動作する。
単眼深度推定の進歩に触発されて,画像条件の深度マップ生成として深度補完を再構成した。
Marigold-DCは、単分子深度推定のための事前訓練された潜伏拡散モデルを構築し、試験時間ガイダンスとして深度観測を注入する。
論文 参考訳(メタデータ) (2024-12-18T00:06:41Z) - Transparent Object Depth Completion [11.825680661429825]
理解と操作のための透明な物体の認識は、依然として大きな課題である。
深度マップに大きく依存する既存のロボットグリップ法は、その独特の視覚特性のために透明な物体には適さない。
本稿では,一視点RGB-Dに基づく深度推定と多視点深度推定の長所を組み合わせた,透明物体深度補完のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:38:06Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - Depth-Relative Self Attention for Monocular Depth Estimation [23.174459018407003]
ディープニューラルネットワークは、RGB情報から抽出されたサイズ、日陰、テクスチャなど、さまざまな視覚的ヒントに依存している。
本稿では,相対深度を自己注意のガイダンスとして用いたRelative Depth Transformer (RED-T) という新しい深度推定モデルを提案する。
提案モデルでは, 単分子深度推定ベンチマークにおいて, 競合する結果が得られ, RGB情報に偏りが小さいことを示す。
論文 参考訳(メタデータ) (2023-04-25T14:20:31Z) - Mind The Edge: Refining Depth Edges in Sparsely-Supervised Monocular Depth Estimation [42.19770683222846]
単眼深度推定(MDE)はコンピュータビジョンの基本的な問題であり、多くの応用がある。
本稿では,密集した合成データから深度エッジの位置を検出することを提案する。
いくつかの挑戦的データセットに対して,画素ごとの深度精度を比較検討することにより,深度エッジの精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2022-12-10T14:49:24Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Domain Randomization-Enhanced Depth Simulation and Restoration for
Perceiving and Grasping Specular and Transparent Objects [28.84776177634971]
深度復元のための強力なRGBD融合ネットワークSwinDRNetを提案する。
また,ドメインランダム化強化深度シミュレーション(DREDS)によるアクティブステレオ深度システムのシミュレーションも提案する。
我々の深度復元は下流タスクの性能を効果的に向上させることを示す。
論文 参考訳(メタデータ) (2022-08-07T19:17:16Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。