論文の概要: SECOND-Grasp: Semantic Contact-guided Dexterous Grasping
- arxiv url: http://arxiv.org/abs/2605.13117v1
- Date: Wed, 13 May 2026 07:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.878354
- Title: SECOND-Grasp: Semantic Contact-guided Dexterous Grasping
- Title(参考訳): SECOND-Grasp:Semantic Contact-Guided Dexterous Grasping
- Authors: Han Yi Shin, Heeju Ko, Jaewon Mun, Qixing Huang, Jaehyeok Lee, Sung June Kim, Honglak Lee, Sujin Jang, Sangpil Kim,
- Abstract要約: Second-Grasp (Semantic Contact-guided Dexterous Grasping) は、ロボットハンドが意味論的推論に基づいて把握戦略を調整できる統合されたフレームワークである。
我々のアプローチは、目に見えるカテゴリーと目に見えないカテゴリの両方で成功率を上げるために、一貫してベースラインを上回ります。
- 参考スコア(独自算出の注目度): 60.1519218638742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving reliable robotic manipulation, such as dexterous grasping, requires a synergy between physically stable interactions and semantic task guidance, yet these objectives are often treated as separate, disjoint goals. In this paper, we investigate how to integrate dexterous grasping techniques, i.e., physically stable grasps for object lifting and language-guided grasp generation, to achieve both physical stability and semantic understanding. To this end, we propose SECOND-Grasp (SEmantic CONtact-guided Dexterous Grasping), a unified framework that enables robotic hands to dynamically adjust grasping strategies based on semantic reasoning while ensuring physical feasibility. We begin by obtaining coarse contact proposals through vision-language reasoning to infer where contacts should occur based on object properties, followed by segmentation to localize these regions across views. To further ensure consistency across multiple viewpoints, we introduce Semantic-Geometric Consistency Refinement (SGCR), which refines initial contact predictions by enforcing semantic consistency across views and removing geometrically invalid regions, yielding reliable 3D contact maps. Then, we derive a feasible hand pose for each contact map via inverse kinematics, generating a supervision signal for policy learning. Our approach, trained on DexGraspNet, consistently outperforms baselines in lifting success rate on both seen and unseen categories, achieving 98.2% and 97.7%, respectively, while also improving intent-aware grasping by 12.8% and 26.2%. We further show promising results on additional datasets and robotic hands, including Shadow Hand and Allegro Hand.
- Abstract(参考訳): 巧妙な把握のような信頼性の高いロボット操作を実現するには、物理的に安定な相互作用と意味的なタスクガイダンスの相乗効果が必要であるが、これらの目的はしばしば分離された非結合的な目標として扱われる。
本稿では,物体持ち上げのための物理的に安定なグリップと言語誘導型グリップ生成を統合して,物理的安定性と意味理解の両方を実現する方法について検討する。
この目的のために,ロボットハンドによる意味的推論に基づく把握戦略を動的に調整し,物理的実現性を確保したSECOND-Grasp(Semantic Contact-guided Dexterous Grasping)を提案する。
まず、対象物の性質に基づいて、どこに接触すべきかを推測する視覚言語推論を用いて、粗い接触提案を取得し、次に、これらの領域をビューにわたってローカライズするセグメンテーションを行う。
複数の視点にまたがって整合性を確保するために,セマンティック・ジオメトリクス・コンシスタンス・リファインメント(SGCR)を導入し,ビュー間のセマンティック・一貫性を強制し,幾何学的に無効な領域を除去し,信頼性の高い3次元接触マップを生成する。
次に,逆運動学を用いて,各接触マップに対して実行可能なポーズを導出し,政策学習のための監視信号を生成する。
DexGraspNetでトレーニングされた我々のアプローチは、目に見えるカテゴリーと目に見えないカテゴリの両方で成功率を上げる上で、一貫してベースラインを上回り、それぞれ98.2%と97.7%を獲得し、意図認識の把握率を12.8%、26.2%向上させた。
さらに、Shadow HandやAllegro Handなど、追加のデータセットとロボットハンドに関する有望な結果を示す。
関連論文リスト
- Task-Aware Bimanual Affordance Prediction via VLM-Guided Semantic-Geometric Reasoning [22.1291953459429]
双方向操作は、オブジェクトとどこで相互作用し、どのアームがそれぞれのアクションを実行するべきかを推論する必要がある。
既存のアプローチでは、余剰予測を粗い部分のセグメンテーションとして扱うか、または腕の割り当てに幾何学に依存している。
本稿では,タスク対応型バイマニュアルアプライアンス予測のための階層的枠組みを提案する。
論文 参考訳(メタデータ) (2026-04-09T19:39:45Z) - AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis [50.793806818677716]
AffordGraspは、物理的に安定し、セマンティックに忠実な人間の握りを高精度に生成する。
AffordGraspは、手ポーズの空きを意識した潜在表現を二重条件拡散プロセスに統合する。
AffordGraspはHO-3D, OakInk, GRAB, AffordPoseの4つの命令強化ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-09T06:56:35Z) - Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T16:00:12Z) - FSAG: Enhancing Human-to-Dexterous-Hand Finger-Specific Affordance Grounding via Diffusion Models [11.581489292735418]
デクサラスグリップ合成は機能的意図と物理的実現性を満たす必要があるが、既存のパイプラインはしばしば洗練からセマンティックグラウンドを分離する。
本研究では、事前学習された生成拡散モデルにおいて、対象中心のセマンティックな事前情報を活用することで、ロボットの把握データ収集を回避できるデータ効率フレームワークを提案する。
この結果は,人間の実演と事前学習した生成モデルによって駆動される,スケーラブルでハードウェアに依存しないデキスタラスな操作への道のりを浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-13T06:08:56Z) - ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Quantitative analysis of robot gesticulation behavior [2.9048924265579124]
本研究の目的は、元のトレーニングデータに対する忠実度などの特性を測定することであるが、同時に生成したジェスチャーの独創性の度合いを追跡することである。
ジェスチャーにFr'echet Inception Distanceを適用することで、新しいFr'echet Gesture Distanceを提案する。
論文 参考訳(メタデータ) (2020-10-22T11:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。