論文の概要: GraspME -- Grasp Manifold Estimator
- arxiv url: http://arxiv.org/abs/2107.01836v1
- Date: Mon, 5 Jul 2021 07:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:12:51.180559
- Title: GraspME -- Grasp Manifold Estimator
- Title(参考訳): GraspME -- Grasp Manifold Estimator
- Authors: Janik Hager, Ruben Bauer, Marc Toussaint, Jim Mainprice
- Abstract要約: 本研究では,Grasp Manifold Estor (GraspME)を導入し,2次元カメラ画像から直接物体の把握能力を検出する。
提案フレームワークは,GPUにおける推定速度11.5fps,キーポイント推定平均精度94.5%,画素距離1.29。
- 参考スコア(独自算出の注目度): 17.902186297156724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we introduce a Grasp Manifold Estimator (GraspME) to detect
grasp affordances for objects directly in 2D camera images. To perform
manipulation tasks autonomously it is crucial for robots to have such
graspability models of the surrounding objects. Grasp manifolds have the
advantage of providing continuously infinitely many grasps, which is not the
case when using other grasp representations such as predefined grasp points.
For instance, this property can be leveraged in motion optimization to define
goal sets as implicit surface constraints in the robot configuration space. In
this work, we restrict ourselves to the case of estimating possible
end-effector positions directly from 2D camera images. To this extend, we
define grasp manifolds via a set of key points and locate them in images using
a Mask R-CNN backbone. Using learned features allows generalizing to different
view angles, with potentially noisy images, and objects that were not part of
the training set. We rely on simulation data only and perform experiments on
simple and complex objects, including unseen ones. Our framework achieves an
inference speed of 11.5 fps on a GPU, an average precision for keypoint
estimation of 94.5% and a mean pixel distance of only 1.29. This shows that we
can estimate the objects very well via bounding boxes and segmentation masks as
well as approximate the correct grasp manifold's keypoint coordinates.
- Abstract(参考訳): 本稿では,Grasp Manifold Estimator (GraspME)を導入し,2次元カメラ画像から直接物体の把握能力を検出する。
自律的に操作タスクを実行するためには,ロボットが周辺物体の把握可能性モデルを持つことが重要である。
把持多様体は無限に多くの把持を与える利点を持つが、これは事前定義された把持点のような他の把持表現を使う場合ではない。
例えば、この特性は動作最適化で活用でき、ロボット構成空間における暗黙的な表面制約としてゴールセットを定義することができる。
本研究では,2次元カメラ画像から直接エンドエフェクター位置を推定する場合に限定する。
この拡張のために、キーポイントの集合を通じて多様体を把握し、Mask R-CNNのバックボーンを用いて画像中の位置を特定する。
学習機能を使用することで、異なる視野角、潜在的にノイズの多い画像、トレーニングセットの一部ではないオブジェクトへの一般化が可能になる。
シミュレーションデータのみに頼り、目に見えないものを含む単純で複雑なオブジェクトの実験を行います。
このフレームワークは、gpu上で11.5 fpsの推論速度を達成し、キーポイント推定の平均精度は94.5%、平均画素距離は1.29である。
これは、境界ボックスとセグメンテーションマスクを用いて物体を非常によく推定できるだけでなく、正しい把持多様体のキーポイント座標を近似できることを示している。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Ambiguity-Aware Multi-Object Pose Optimization for Visually-Assisted
Robot Manipulation [17.440729138126162]
あいまいさを意識した6Dオブジェクトポーズ推定ネットワークPrimA6D++を汎用的不確実性予測手法として提案する。
提案手法は,T-LESS と YCB-Video のデータセットの性能向上を示す。
さらに,視覚支援ロボット操作のためのリアルタイムシーン認識機能を示す。
論文 参考訳(メタデータ) (2022-11-02T08:57:20Z) - PixTrack: Precise 6DoF Object Pose Tracking using NeRF Templates and
Feature-metric Alignment [0.0]
本稿では、新しいビュー合成と深い特徴量アライメントを用いた視覚に基づくオブジェクトポーズ追跡フレームワークPixTrackを提案する。
提案手法は, モノクロRGB画像とRGB-D画像の両方において, 高精度でロバストでジッタフリーな6DoFのオブジェクトを推定できることを示す。
論文 参考訳(メタデータ) (2022-09-08T16:36:24Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。