論文の概要: MonoGraspNet: 6-DoF Grasping with a Single RGB Image
- arxiv url: http://arxiv.org/abs/2209.13036v1
- Date: Mon, 26 Sep 2022 21:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:08:34.308330
- Title: MonoGraspNet: 6-DoF Grasping with a Single RGB Image
- Title(参考訳): MonoGraspNet: 単一のRGBイメージによる6-DoFグラフ作成
- Authors: Guangyao Zhai, Dianye Huang, Shun-Cheng Wu, Hyunjun Jung, Yan Di,
Fabian Manhardt, Federico Tombari, Nassir Navab and Benjamin Busam
- Abstract要約: 6-DoFロボットの把握は長続きするが未解決の問題だ。
近年の手法では3次元ネットワークを用いて深度センサから幾何的把握表現を抽出している。
我々はMonoGraspNetと呼ばれるRGBのみの6-DoFグルーピングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 73.96707595661867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 6-DoF robotic grasping is a long-lasting but unsolved problem. Recent methods
utilize strong 3D networks to extract geometric grasping representations from
depth sensors, demonstrating superior accuracy on common objects but perform
unsatisfactorily on photometrically challenging objects, e.g., objects in
transparent or reflective materials. The bottleneck lies in that the surface of
these objects can not reflect back accurate depth due to the absorption or
refraction of light. In this paper, in contrast to exploiting the inaccurate
depth data, we propose the first RGB-only 6-DoF grasping pipeline called
MonoGraspNet that utilizes stable 2D features to simultaneously handle
arbitrary object grasping and overcome the problems induced by photometrically
challenging objects. MonoGraspNet leverages keypoint heatmap and normal map to
recover the 6-DoF grasping poses represented by our novel representation
parameterized with 2D keypoints with corresponding depth, grasping direction,
grasping width, and angle. Extensive experiments in real scenes demonstrate
that our method can achieve competitive results in grasping common objects and
surpass the depth-based competitor by a large margin in grasping
photometrically challenging objects. To further stimulate robotic manipulation
research, we additionally annotate and open-source a multi-view and multi-scene
real-world grasping dataset, containing 120 objects of mixed photometric
complexity with 20M accurate grasping labels.
- Abstract(参考訳): 6-DoFロボットの把握は長続きするが未解決の問題だ。
近年の手法では、3Dネットワークを用いて深度センサから幾何学的把握表現を抽出し、一般的な物体に対して優れた精度を示すが、透明または反射性材料中の物体など、光学的に困難な物体に対して不満足に実行する。
ボトルネックは、これらの物体の表面が光の吸収や屈折によって正確な深さを反射できないことである。
本稿では,不正確な深度データを利用するのとは対照的に,安定な2次元特徴を利用したRGBのみの6-DoF把握パイプラインMonoGraspNetを提案する。
MonoGraspNetはキーポイントヒートマップとノーマルマップを利用して,2次元キーポイントと対応する深さ,把握方向,幅,角度をパラメータ化して表現した6-DoFグルーピングポーズを復元する。
実場面での広範囲な実験により,本手法は共通物体の把握において競争的な結果を達成し,光量的に挑戦する物体の把握において,深度ベースの競合相手を大きく超えることを証明した。
ロボット操作研究をさらに促進するために,20Mの正確な把握ラベルと120の混合光度複雑性のオブジェクトを含む多視点および多シーンの実世界の把握データセットを,アノテーションおよびオープンソース化した。
関連論文リスト
- Diffusion-Based Depth Inpainting for Transparent and Reflective Objects [6.571006663689738]
本稿では,透過的および反射的オブジェクトに特化して設計された拡散型深度塗布フレームワークを提案する。
DITRは、堅牢な適応性を持つ透明で反射性のある物体の奥行き塗装に非常に効果的である。
論文 参考訳(メタデータ) (2024-10-11T06:45:15Z) - OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera [9.212504138203222]
RGB-Dアクティブステレオカメラを用いた6自由度グリップ検出ネットワークASGraspを提案する。
本システムでは, 透明物体形状再構成において, 生のIRおよびRGB画像を直接利用できることで, 自己を識別する。
実験により、ASGraspは、一般化可能な透明物体把握において90%以上の成功率を達成できることが示された。
論文 参考訳(メタデータ) (2024-05-09T09:44:51Z) - MoGDE: Boosting Mobile Monocular 3D Object Detection with Ground Depth
Estimation [20.697822444708237]
画像の基底深度を常に推定する新しいMono3DフレームワークであるMoGDEを提案する。
MoGDEは最先端の手法と比較して大きなマージンで最高の性能を示し、KITTI 3Dベンチマークで第1位にランクされている。
論文 参考訳(メタデータ) (2023-03-23T04:06:01Z) - Grasping the Inconspicuous [15.274311118568715]
本研究では,RGB画像からの深層学習による6次元ポーズ推定について検討した。
透明物体を把握するためのRGB画像空間の有効性を実験により実証した。
論文 参考訳(メタデータ) (2022-11-15T14:45:50Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - TransCG: A Large-Scale Real-World Dataset for Transparent Object Depth
Completion and Grasping [46.6058840385155]
我々は、透明な物体深度を補完する大規模な実世界のデータセットをコントリビュートする。
データセットには、130の異なるシーンから57,715枚のRGB-D画像が含まれている。
本稿では,RGB画像と不正確な深度マップを入力とし,精細化された深度マップを出力するエンド・ツー・エンドの深度補完ネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-17T06:50:20Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。