論文の概要: Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics
- arxiv url: http://arxiv.org/abs/2603.11383v1
- Date: Wed, 11 Mar 2026 23:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.71832
- Title: Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics
- Title(参考訳): 逆運動学によるロボットマニピュレーションのための視覚ベース手影処理
- Authors: Hendrik Chiche, Antoine Jamme, Trevor Rigoberto Martinez,
- Abstract要約: 3Dプリンティングガラスに装着した1台の自家中心型RGB-Dカメラから、オフラインのハンドシャドイングとマッピングパイプラインを提示する。
パイプラインはMediaPipe Handsを使用して、手当たり21のランドマークを検出する。
グリップコントローラは、親指の指形状を4段階のフォールバック階層で把握するようにマッピングする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teleoperation of low-cost robotic manipulators remains challenging due to the complexity of mapping human hand articulations to robot joint commands. We present an offline hand-shadowing and retargeting pipeline from a single egocentric RGB-D camera mounted on 3D-printed glasses. The pipeline detects 21 hand landmarks per hand using MediaPipe Hands, deprojects them into 3D via depth sensing, transforms them into the robot coordinate frame, and solves a damped-least-squares inverse kinematics problem in PyBullet to produce joint commands for the 6-DOF SO-ARM101 robot. A gripper controller maps thumb-index finger geometry to grasp aperture with a four-level fallback hierarchy. Actions are first previewed in a physics simulation before replay on the physical robot through the LeRobot framework. We evaluate the IK retargeting pipeline on a structured pick-and-place benchmark (5-tile grid, 10 grasps per tile) achieving a 90% success rate, and compare it against four vision-language-action policies (ACT, SmolVLA, pi0.5, GR00T N1.5) trained on leader-follower teleoperation data. We also test the IK pipeline in unstructured real-world environments (grocery store, pharmacy), where hand occlusion by surrounding objects reduces success to 9.3% (N=75), highlighting both the promise and current limitations of marker-free analytical retargeting.
- Abstract(参考訳): 低コストロボットマニピュレータの遠隔操作は、人間の手関節をロボット関節コマンドにマッピングする複雑さのため、依然として困難である。
3Dプリンティンググラスに装着した1台の自我中心のRGB-Dカメラから、オフラインのハンドシェイド・リターゲティングパイプラインを提示する。
パイプラインは、MediaPipe Handsを使って手当たり21のランドマークを検出し、深度センサーでそれらを3Dに分解し、ロボット座標フレームに変換し、PyBulletの2乗2乗逆運動学の問題を解決することで、6-DOF SO-ARM101ロボットのジョイントコマンドを生成する。
グリップコントローラは、親指の指形状を4段階のフォールバック階層で把握するようにマッピングする。
アクションは、物理シミュレーションで最初にプレビューされ、LeRobotフレームワークを通じて物理ロボットで再生される。
IK再ターゲティングパイプラインを構造化されたピック・アンド・プレース・ベンチマーク(5タイル・グリッド, タイルあたり10グリップ)で90%の成功率で評価し, リーダ・フォロワー遠隔操作データに基づいて訓練した4つの視覚言語対応政策(ACT, SmolVLA, pi0.5, GR00T N1.5)と比較した。
また、IKパイプラインを非構造化現実環境(グロサリーストア、薬局)でテストし、周囲の物体による手閉塞は成功率を9.3%(N=75)に低下させ、マーカーのない分析的再ターゲティングの約束と現在の限界の両方を強調した。
関連論文リスト
- Dexterous Manipulation Policies from RGB Human Videos via 3D Hand-Object Trajectory Reconstruction [24.49384094440561]
我々は,RGBのヒューマンビデオから直接デクスタラスな操作を学習する,デバイスフリーのフレームワークであるVIDEOMANIPを提案する。
シミュレーションでは、学習した把握モデルはインスパイアハンドを用いて20種類のオブジェクトに対して70.25%の成功率を達成する。
実世界では、RGBビデオから訓練された操作ポリシーは、LEAPハンドを使用して7つのタスクで平均62.86%の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-09T18:56:02Z) - Probabilistic Human Intent Prediction for Mobile Manipulation: An Evaluation with Human-Inspired Constraints [2.2893865000399938]
人間の意図の正確な推論は、人間とロボットの衝突を引き起こすことなく、人間とロボットの協調を可能にする。
ロボットが人間の操作者の意図を推定できる確率的フレームワークであるGUIDERを提案する。
アイザック・シムの25の試験(5人の被験者x5のタスク変種)においてGUIDERを評価し,ナビゲーション用と操作用の2つのベースラインと比較した。
論文 参考訳(メタデータ) (2025-07-14T10:21:27Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Exploring 3D Human Pose Estimation and Forecasting from the Robot's Perspective: The HARPER Dataset [52.22758311559]
本研究では,ユーザとスポット間のダイアドインタラクションにおける3次元ポーズ推定と予測のための新しいデータセットであるHARPERを紹介する。
キーノーベルティは、ロボットの視点、すなわちロボットのセンサーが捉えたデータに焦点を当てることである。
HARPERの基盤となるシナリオには15のアクションが含まれており、そのうち10つはロボットとユーザの間の物理的接触を含んでいる。
論文 参考訳(メタデータ) (2024-03-21T14:53:50Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - From One Hand to Multiple Hands: Imitation Learning for Dexterous
Manipulation from Single-Camera Teleoperation [26.738893736520364]
我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。
我々は,操作者の手の構造と形状が同じであるマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築する。
データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2022-04-26T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。