論文の概要: Combining Shape Completion and Grasp Prediction for Fast and Versatile
Grasping with a Multi-Fingered Hand
- arxiv url: http://arxiv.org/abs/2310.20350v1
- Date: Tue, 31 Oct 2023 10:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:31:22.048910
- Title: Combining Shape Completion and Grasp Prediction for Fast and Versatile
Grasping with a Multi-Fingered Hand
- Title(参考訳): 多指ハンドによる高速・バーサタイルグラスピングにおける形状補完とグラフ予測の併用
- Authors: Matthias Humt, Dominik Winkelbauer, Ulrich Hillenbrand and Berthold
B\"auml
- Abstract要約: 本稿では,形状完了モジュールとグリップ予測器からなる,新しい,高速かつ高忠実度深層学習パイプラインを提案する。
予測器の把握には,まず自己回帰モデルを用いて手ポーズを生成し,その後,ポーズ毎に指関節構成を回帰する2段階のアーキテクチャを用いる。
物理ロボットプラットフォームを用いた実験では, 単一視点からの深度画像に基づいて, 広範囲の家庭用物体の把握に成功した。
- 参考スコア(独自算出の注目度): 2.4682909476447588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grasping objects with limited or no prior knowledge about them is a highly
relevant skill in assistive robotics. Still, in this general setting, it has
remained an open problem, especially when it comes to only partial
observability and versatile grasping with multi-fingered hands. We present a
novel, fast, and high fidelity deep learning pipeline consisting of a shape
completion module that is based on a single depth image, and followed by a
grasp predictor that is based on the predicted object shape. The shape
completion network is based on VQDIF and predicts spatial occupancy values at
arbitrary query points. As grasp predictor, we use our two-stage architecture
that first generates hand poses using an autoregressive model and then
regresses finger joint configurations per pose. Critical factors turn out to be
sufficient data realism and augmentation, as well as special attention to
difficult cases during training. Experiments on a physical robot platform
demonstrate successful grasping of a wide range of household objects based on a
depth image from a single viewpoint. The whole pipeline is fast, taking only
about 1 s for completing the object's shape (0.7 s) and generating 1000 grasps
(0.3 s).
- Abstract(参考訳): 事前知識が限られている、あるいは全くない物体をつかむことは、補助ロボティクスにおいて非常に適切なスキルである。
しかし、この一般的な設定では、特に多指ハンドによる部分的可観測性と多指把持性のみに関して、オープンな問題のままである。
本稿では,単一の深度画像に基づく形状完了モジュールと,予測された物体形状に基づく把握予測モジュールとからなる,新規で高速で高忠実なディープラーニングパイプラインを提案する。
形状完了ネットワークはVQDIFに基づいて任意のクエリポイントにおける空間占有値を予測する。
予測器の把握には,まず自己回帰モデルを用いてポーズを生成し,次にポーズ毎に指関節構成を回帰する2段階のアーキテクチャを用いる。
重要な要因は、十分なデータリアリズムと強化であり、トレーニング中の困難なケースに特に注意を向けることである。
物理ロボットプラットフォームを用いた実験では, 単一視点からの深度画像に基づいて, 広範囲の家庭用物体の把握に成功した。
パイプライン全体が高速で、物体の形状(0.7 s)を完了するのに約1 sしかかからず、1000 の把持(0.3 s)を生成する。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - DICE: End-to-end Deformation Capture of Hand-Face Interactions from a Single Image [98.29284902879652]
DICEは1枚の画像から変形認識による手と顔のインタラクションを再現する最初のエンドツーエンド手法である。
ローカルな変形場とグローバルなメッシュ位置の回帰を2つのネットワークブランチに切り離すことが特徴である。
標準的なベンチマークと、精度と物理的妥当性の点から見れば、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-26T00:08:29Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - 3D Human Pose Estimation using Spatio-Temporal Networks with Explicit
Occlusion Training [40.933783830017035]
近年の大きな進歩にもかかわらず、モノラルなタスクから3Dのポーズを推定することは依然として難しい課題である。
頑健な3次元ポーズ推定のための時間的ビデオネットワークを提案する。
本研究では,各フレームに2次元関節やキーポイントの予測,および3次元関節やキーポイントを推定するために,多段階の時間的畳み込みネットワーク(TCN)を適用した。
論文 参考訳(メタデータ) (2020-04-07T09:12:12Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。