論文の概要: DextER: Language-driven Dexterous Grasp Generation with Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2601.16046v1
- Date: Thu, 22 Jan 2026 15:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.638494
- Title: DextER: Language-driven Dexterous Grasp Generation with Embodied Reasoning
- Title(参考訳): DextER: 動的推論による言語駆動型デクスタースグラフ生成
- Authors: Junha Lee, Eunha Park, Minsu Cho,
- Abstract要約: 言語駆動の器用な把握生成は、タスク意味論、3次元幾何学、複雑な手-物体の相互作用を理解するためにモデルを必要とする。
マルチフィンガー操作のためのコンタクトベースの具体的推論を導入したDextERを提案する。
- 参考スコア(独自算出の注目度): 47.913581363031064
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language-driven dexterous grasp generation requires the models to understand task semantics, 3D geometry, and complex hand-object interactions. While vision-language models have been applied to this problem, existing approaches directly map observations to grasp parameters without intermediate reasoning about physical interactions. We present DextER, Dexterous Grasp Generation with Embodied Reasoning, which introduces contact-based embodied reasoning for multi-finger manipulation. Our key insight is that predicting which hand links contact where on the object surface provides an embodiment-aware intermediate representation bridging task semantics with physical constraints. DextER autoregressively generates embodied contact tokens specifying which finger links contact where on the object surface, followed by grasp tokens encoding the hand configuration. On DexGYS, DextER achieves 67.14% success rate, outperforming state-of-the-art by 3.83%p with 96.4% improvement in intention alignment. We also demonstrate steerable generation through partial contact specification, providing fine-grained control over grasp synthesis.
- Abstract(参考訳): 言語駆動の器用な把握生成は、タスク意味論、3次元幾何学、複雑な手-物体の相互作用を理解するためにモデルを必要とする。
この問題に対して視覚言語モデルが適用されているが、既存のアプローチでは、物理相互作用に関する中間的推論をせずに、観察を直接マッピングしてパラメータを把握している。
DextER, Dexterous Grasp Generation with Embodied Reasoningを提案する。
我々のキーとなる洞察は、オブジェクト表面上のどのハンドリンクが接触しているかを予測することは、物理的制約を伴うタスクセマンティクスを具体化する中間表現を提供する。
DextERは、対象表面上のどの指リンクが接触しているかを指定するエンボディ接触トークンを自動回帰生成し、次に手構成を符号化するグリップトークンを生成する。
DexGYSでは、DextERは67.14%の成功率に達し、最先端の3.83%、意図的なアライメントが96.4%向上した。
また、部分接触仕様によるステアブル生成を実証し、グリップ合成のきめ細かい制御を提供する。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - UniHM: Unified Dexterous Hand Manipulation with Vision Language Model [39.2419824041854]
身体的に実現可能な器用な手操作を計画することは、ロボット操作と身体的AIにおける中心的な課題である。
自由形式の言語コマンドで案内される手操作を統一する最初のフレームワークであるUniHMを紹介する。
論文 参考訳(メタデータ) (2026-02-28T16:37:11Z) - FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation [23.19464039872024]
FlowHOIは、時間的にコヒーレントなHOIシーケンスを生成するフローマッチングフレームワークである。
本研究では,FlowHOIが最も高い動作認識精度と1.7$times$高い物理シミュレーション成功率を達成することを示す。
論文 参考訳(メタデータ) (2026-02-13T20:46:08Z) - TOUCH: Text-guided Controllable Generation of Free-Form Hand-Object Interactions [66.08264566003048]
Free-Form HOI Generationは、きめ細かいインテントで調整された制御可能な、多様性があり、物理的に妥当なHOIを生成することを目的としている。
われわれはWildO2を構築した。WildO2は、インターネットビデオから派生した多様なHOIを含む3D HOIデータセットである。
本データセットをベースとしたTOUCHは,多目的手ポーズを生成するための細粒度セマンティック制御を容易にする3段階フレームワークである。
論文 参考訳(メタデータ) (2025-10-16T16:52:58Z) - Cross-Embodiment Dexterous Hand Articulation Generation via Morphology-Aware Learning [82.63833405368159]
既存のエンドツーエンドメソッドでは、特定の手で大規模なデータセットをトレーニングする必要がある。
本稿では,固有グラフに基づくクロスボデーメントグリップ生成のためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T15:57:00Z) - DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation [78.60543357822957]
高度なロボティクスにとって、接触に富んだ相互作用による有害な操作が不可欠である。
DexHandDiffは,適応的デキスタラス操作のための対話型拡散計画フレームワークである。
当社のフレームワークは, 目標適応度の高いタスクにおいて, 平均70.7%の成功率を実現し, コンタクトリッチな操作における堅牢性と柔軟性を強調した。
論文 参考訳(メタデータ) (2024-11-27T18:03:26Z) - ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。
私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。
本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。
これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-09-14T04:28:44Z) - ClickDiff: Click to Induce Semantic Contact Map for Controllable Grasp Generation with Diffusion Models [17.438429495623755]
ClickDiffは、きめ細かいセマンティックコンタクトマップを利用する制御可能な条件生成モデルである。
このフレームワーク内では、セマンティック条件付きモジュールは、きめ細かい接触情報に基づいて適切な接触マップを生成する。
提案手法の有効性を検証し,ClickDiffの有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2024-07-28T02:42:29Z) - G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - Contact2Grasp: 3D Grasp Synthesis via Hand-Object Contact Constraint [18.201389966034263]
3Dグリップ合成は、入力対象が与えられたグリップポーズを生成する。
本研究では, 接触領域を把握するための中間変数を導入し, グリップ生成を制約する。
本手法は,各種メトリクスの把握に関する最先端手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-17T16:39:25Z) - TOCH: Spatio-Temporal Object-to-Hand Correspondence for Motion
Refinement [42.3418874174372]
そこで本研究では,データを用いた不正確な3次元手オブジェクトインタラクションシーケンスの精細化手法TOCHを提案する。
時間分解オートエンコーダを用いた可塑性TOCH場の潜在多様体を学習する。
実験により、TOCHは最先端の3Dハンドオブジェクトインタラクションモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-16T20:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。