論文の概要: GAA-TSO: Geometry-Aware Assisted Depth Completion for Transparent and Specular Objects
- arxiv url: http://arxiv.org/abs/2503.17106v1
- Date: Fri, 21 Mar 2025 12:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:39.346678
- Title: GAA-TSO: Geometry-Aware Assisted Depth Completion for Transparent and Specular Objects
- Title(参考訳): GAA-TSO:透明および特異物体に対する幾何学的支援深度補完
- Authors: Yizhe Liu, Tong Jia, Da Cai, Hao Wang, Dongyue Chen,
- Abstract要約: 本稿では,透明かつ特異な物体に対する幾何学的支援深度補完法を提案する。
具体的には、入力深度を点雲にバックプロジェクションし、3Dブランチを構築し、階層的なシーンレベルの3D構造特徴を抽出する。
提案手法は,下流ロボットグルーピングタスクの性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 5.227530976208222
- License:
- Abstract: Transparent and specular objects are frequently encountered in daily life, factories, and laboratories. However, due to the unique optical properties, the depth information on these objects is usually incomplete and inaccurate, which poses significant challenges for downstream robotics tasks. Therefore, it is crucial to accurately restore the depth information of transparent and specular objects. Previous depth completion methods for these objects usually use RGB information as an additional channel of the depth image to perform depth prediction. Due to the poor-texture characteristics of transparent and specular objects, these methods that rely heavily on color information tend to generate structure-less depth predictions. Moreover, these 2D methods cannot effectively explore the 3D structure hidden in the depth channel, resulting in depth ambiguity. To this end, we propose a geometry-aware assisted depth completion method for transparent and specular objects, which focuses on exploring the 3D structural cues of the scene. Specifically, besides extracting 2D features from RGB-D input, we back-project the input depth to a point cloud and build the 3D branch to extract hierarchical scene-level 3D structural features. To exploit 3D geometric information, we design several gated cross-modal fusion modules to effectively propagate multi-level 3D geometric features to the image branch. In addition, we propose an adaptive correlation aggregation strategy to appropriately assign 3D features to the corresponding 2D features. Extensive experiments on ClearGrasp, OOD, TransCG, and STD datasets show that our method outperforms other state-of-the-art methods. We further demonstrate that our method significantly enhances the performance of downstream robotic grasping tasks.
- Abstract(参考訳): 透明で特異な物体は、日常生活、工場、研究室でよく見られる。
しかし、ユニークな光学特性のため、これらの物体の深度情報は通常不完全で不正確であり、下流ロボティクスのタスクに重大な課題をもたらす。
したがって、透明で特異な物体の深度情報を正確に復元することが重要である。
これらのオブジェクトの以前の深度補完方法は、通常、深度予測を行うために、深度画像の追加チャネルとしてRGB情報を使用する。
透明で特異な物体のテクスチャー特性が低かったため、色情報に大きく依存するこれらの手法は、構造のない深さ予測を生成する傾向にある。
さらに、これらの2次元手法は、深さチャネルに隠された3次元構造を効果的に探索することができず、深さの曖昧さをもたらす。
そこで本研究では,3次元構造の探索に焦点をあてた,透明で特異な物体の形状認識支援深度補完手法を提案する。
具体的には、RGB-D入力から2D特徴を抽出する以外に、入力深度をポイントクラウドにバックプロジェクションし、3Dブランチを構築し、階層的なシーンレベルの3D構造特徴を抽出する。
3次元幾何情報を活用するために,画像分岐に多次元の幾何学的特徴を効果的に伝播させるために,複数のゲート型クロスモーダル融合モジュールを設計する。
さらに, 3次元特徴を対応する2次元特徴に適切に割り当てる適応的相関アグリゲーション戦略を提案する。
ClearGrasp、OOD、TransCG、STDデータセットの大規模な実験により、我々の手法は他の最先端の手法よりも優れていることが示された。
さらに,本手法が下流ロボットグリップタスクの性能を大幅に向上させることを示す。
関連論文リスト
- GAC-Net_Geometric and attention-based Network for Depth Completion [10.64600095082433]
本稿では,チャネルアテンション機構と3次元グローバル特徴知覚(CGA-Net)を組み合わせたディープコンプリートネットワークを提案する。
KITTI深度補完データセットの実験により、CGA-Netは深度マップの予測精度を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2025-01-14T10:24:20Z) - OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。