論文の概要: RGB Matters: Learning 7-DoF Grasp Poses on Monocular RGBD Images
- arxiv url: http://arxiv.org/abs/2103.02184v1
- Date: Wed, 3 Mar 2021 05:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 14:51:36.388762
- Title: RGB Matters: Learning 7-DoF Grasp Poses on Monocular RGBD Images
- Title(参考訳): RGB 問題: 単眼 RGBD イメージ上の 7-DoF Grasp Poses を学習します。
- Authors: Minghao Gou, Hao-Shu Fang, Zhanda Zhu, Sheng Xu, Chenxi Wang, Cewu Lu
- Abstract要約: 一般的な対象把握はロボティクスの分野では重要だが未解決の問題である。
RGBD-Graspは、7-DoFグリップ検出を2つのサブタスクに分離することでこの問題を解決するパイプラインである。
GraspNet-1Billionデータセットで最新の結果が得られます。
- 参考スコア(独自算出の注目度): 42.68340286459079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General object grasping is an important yet unsolved problem in the field of
robotics. Most of the current methods either generate grasp poses with few DoF
that fail to cover most of the success grasps, or only take the unstable depth
image or point cloud as input which may lead to poor results in some cases. In
this paper, we propose RGBD-Grasp, a pipeline that solves this problem by
decoupling 7-DoF grasp detection into two sub-tasks where RGB and depth
information are processed separately. In the first stage, an encoder-decoder
like convolutional neural network Angle-View Net(AVN) is proposed to predict
the SO(3) orientation of the gripper at every location of the image.
Consequently, a Fast Analytic Searching(FAS) module calculates the opening
width and the distance of the gripper to the grasp point. By decoupling the
grasp detection problem and introducing the stable RGB modality, our pipeline
alleviates the requirement for the high-quality depth image and is robust to
depth sensor noise. We achieve state-of-the-art results on GraspNet-1Billion
dataset compared with several baselines. Real robot experiments on a UR5 robot
with an Intel Realsense camera and a Robotiq two-finger gripper show high
success rates for both single object scenes and cluttered scenes. Our code and
trained model will be made publicly available.
- Abstract(参考訳): 一般的な対象把握はロボティクスの分野では重要だが未解決の問題である。
現在の手法のほとんどは、成功の把握の大部分をカバーできない少数のDoFでグリップポーズを生成するか、不安定な深度画像や点雲のみを入力とし、場合によっては結果の低さにつながる可能性がある。
本稿では,7自由度把握検出をrgbと深度情報を別々に処理する2つのサブタスクに分離し,この問題を解決するパイプラインであるrgbd-graspを提案する。
最初の段階では、畳み込みニューラルネットワークAngle-View Net(AVN)のようなエンコーダデコーダを提案し、画像のすべての位置におけるグリップのSO(3)方向を予測する。
これにより、Fast Analytic Searching(FAS)モジュールは、グリップのグリップポイントへの開口幅と距離を算出する。
把握検出問題を分離し,安定なrgbモダリティを導入することで,高品質な深度画像の要求を緩和し,深さセンサノイズに頑健なパイプラインを実現する。
複数のベースラインと比較して、GraspNet-1Billionデータセットの最新の結果を達成します。
Intel RealsenseカメラとRobotiqの2本指グリップを備えたUR5ロボットのリアルロボット実験は、単一のオブジェクトシーンと散らかったシーンの両方で高い成功率を示している。
私たちのコードとトレーニングされたモデルは公開されます。
関連論文リスト
- ASGrasp: Generalizable Transparent Object Reconstruction and Grasping from RGB-D Active Stereo Camera [9.212504138203222]
RGB-Dアクティブステレオカメラを用いた6自由度グリップ検出ネットワークASGraspを提案する。
本システムでは, 透明物体形状再構成において, 生のIRおよびRGB画像を直接利用できることで, 自己を識別する。
実験により、ASGraspは、一般化可能な透明物体把握において90%以上の成功率を達成できることが示された。
論文 参考訳(メタデータ) (2024-05-09T09:44:51Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - Pyramid Deep Fusion Network for Two-Hand Reconstruction from RGB-D Images [11.100398985633754]
両手で高密度メッシュを復元するためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはResNet50とPointNet++を使って、RGBとpoint cloudから機能を派生しています。
また,異なるスケールで特徴を集約する新しいピラミッド深層核融合ネットワーク (PDFNet) も導入した。
論文 参考訳(メタデータ) (2023-07-12T09:33:21Z) - ViDaS Video Depth-aware Saliency Network [40.08270905030302]
両ストリームの完全な畳み込みビデオ,Depth-Aware Saliency ネットワークである ViDaS を紹介する。
ビデオのサリエンシ予測を通じて、注目度モデリングの問題に対処する。
ネットワークは2つのビジュアルストリームで構成され、1つはRGBフレーム用、もう1つは奥行きフレーム用である。
エンドツーエンドでトレーニングされ、アイトラッキングデータを備えたさまざまなデータベースで評価される。
論文 参考訳(メタデータ) (2023-05-19T15:04:49Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - MonoGraspNet: 6-DoF Grasping with a Single RGB Image [73.96707595661867]
6-DoFロボットの把握は長続きするが未解決の問題だ。
近年の手法では3次元ネットワークを用いて深度センサから幾何的把握表現を抽出している。
我々はMonoGraspNetと呼ばれるRGBのみの6-DoFグルーピングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-09-26T21:29:50Z) - SPSN: Superpixel Prototype Sampling Network for RGB-D Salient Object
Detection [5.2134203335146925]
近年,RGB-D Salient Object Detection (SOD) が注目されている。
深層学習手法の進歩にもかかわらず、RGB-D SODは、RGB画像と深度マップと低品質深度マップとの間に大きな領域ギャップがあるため、依然として困難である。
本稿では,この問題を解決するために,新しいスーパーピクセルプロトタイプサンプリングネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-16T10:43:14Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。