論文の概要: Web2Grasp: Learning Functional Grasps from Web Images of Hand-Object Interactions
- arxiv url: http://arxiv.org/abs/2505.05517v2
- Date: Tue, 13 May 2025 02:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 12:30:10.423906
- Title: Web2Grasp: Learning Functional Grasps from Web Images of Hand-Object Interactions
- Title(参考訳): Web2Grasp: ハンドオブジェクトインタラクションのWebイメージから関数型グラスプを学習する
- Authors: Hongyi Chen, Yunchao Yao, Yufei Ye, Zhixuan Xu, Homanga Bharadhwaj, Jiashun Wang, Shubham Tulsiani, Zackory Erickson, Jeffrey Ichnowski,
- Abstract要約: 器用な多指ロボットの手を使って物体を効果的に操るためには,機能的把握が不可欠である。
自然と機能的なオブジェクトの相互作用を描写するため,Web画像から人間の把握情報を抽出する手法を提案する。
安価なWebソースから得られた比較的低品質なHOIデータは、機能的把握モデルを効果的に訓練できることを示す。
- 参考スコア(独自算出の注目度): 37.334138196925025
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Functional grasp is essential for enabling dexterous multi-finger robot hands to manipulate objects effectively. However, most prior work either focuses on power grasping, which simply involves holding an object still, or relies on costly teleoperated robot demonstrations to teach robots how to grasp each object functionally. Instead, we propose extracting human grasp information from web images since they depict natural and functional object interactions, thereby bypassing the need for curated demonstrations. We reconstruct human hand-object interaction (HOI) 3D meshes from RGB images, retarget the human hand to multi-finger robot hands, and align the noisy object mesh with its accurate 3D shape. We show that these relatively low-quality HOI data from inexpensive web sources can effectively train a functional grasping model. To further expand the grasp dataset for seen and unseen objects, we use the initially-trained grasping policy with web data in the IsaacGym simulator to generate physically feasible grasps while preserving functionality. We train the grasping model on 10 object categories and evaluate it on 9 unseen objects, including challenging items such as syringes, pens, spray bottles, and tongs, which are underrepresented in existing datasets. The model trained on the web HOI dataset, achieving a 75.8% success rate on seen objects and 61.8% across all objects in simulation, with a 6.7% improvement in success rate and a 1.8x increase in functionality ratings over baselines. Simulator-augmented data further boosts performance from 61.8% to 83.4%. The sim-to-real transfer to the LEAP Hand achieves a 85% success rate. Project website is at: https://web2grasp.github.io/.
- Abstract(参考訳): 器用な多指ロボットの手を使って物体を効果的に操るためには,機能的把握が不可欠である。
しかし、これまでのほとんどの研究は、物体をそのまま保持するだけのパワー把握に焦点を当てているか、ロボットに各物体を機能的に把握する方法を教えるために、高価な遠隔操作ロボットのデモに依存している。
代わりに、自然と機能するオブジェクトの相互作用を描写したWeb画像から人間の把握情報を抽出し、キュレートされたデモの必要性を回避することを提案する。
我々は、RGB画像から人間の手-物間相互作用(HOI)3Dメッシュを再構築し、人間の手からマルチフィンガーロボットの手へ再ターゲットし、ノイズの多い物体メッシュを正確な3D形状に整列させる。
安価なWebソースから得られた比較的低品質なHOIデータは、機能的把握モデルを効果的に訓練できることを示す。
そこで,IsaacGymシミュレータのWebデータを用いた初期学習型グルーピングポリシーを用いて,機能を維持しつつ,物理的に実現可能なグルーピングを生成する。
既存のデータセットで不足している注射器、ペン、スプレーボトル、トングなどの難易度の高い項目を含む、9つの未知のオブジェクトに対して、把握モデルを訓練し、評価する。
このモデルはWeb HOIデータセットでトレーニングされ、観測対象で75.8%の成功率、シミュレーション対象で61.8%、成功率で6.7%、機能評価で1.8倍に向上した。
シミュレータが強化されたデータにより、パフォーマンスはさらに61.8%から83.4%に向上する。
LEAPハンドへのsim-to-real転送は85%の成功率を達成する。
プロジェクトのWebサイトは以下の通り。
関連論文リスト
- Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation [29.01984677695523]
本稿では6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。
シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。
代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。
論文 参考訳(メタデータ) (2023-05-06T05:55:27Z) - ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation [68.80339307258835]
ARCTICは、オブジェクトを巧みに操作する両手のデータセットである。
正確な3Dハンドメッシュと、詳細でダイナミックな接触情報を組み合わせた2.1Mビデオフレームを含んでいる。
論文 参考訳(メタデータ) (2022-04-28T17:23:59Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。
本稿では,厳密な把握を学習するためのアプローチを提案する。
私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文 参考訳(メタデータ) (2020-09-03T04:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。