論文の概要: UniHM: Unified Dexterous Hand Manipulation with Vision Language Model
- arxiv url: http://arxiv.org/abs/2603.00732v1
- Date: Sat, 28 Feb 2026 16:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.344912
- Title: UniHM: Unified Dexterous Hand Manipulation with Vision Language Model
- Title(参考訳): UniHM:Unified Dexterous Hand Manipulation with Vision Language Model
- Authors: Zhenhao Zhang, Jiaxin Liu, Ye Shi, Jingya Wang,
- Abstract要約: 身体的に実現可能な器用な手操作を計画することは、ロボット操作と身体的AIにおける中心的な課題である。
自由形式の言語コマンドで案内される手操作を統一する最初のフレームワークであるUniHMを紹介する。
- 参考スコア(独自算出の注目度): 39.2419824041854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning physically feasible dexterous hand manipulation is a central challenge in robotic manipulation and Embodied AI. Prior work typically relies on object-centric cues or precise hand-object interaction sequences, foregoing the rich, compositional guidance of open-vocabulary instruction. We introduce UniHM, the first framework for unified dexterous hand manipulation guided by free-form language commands. We propose a Unified Hand-Dexterous Tokenizer that maps heterogeneous dexterous-hand morphologies into a single shared codebook, improving cross-dexterous hand generalization and scalability to new morphologies. Our vision language action model is trained solely on human-object interaction data, eliminating the need for massive real-world teleoperation datasets, and demonstrates strong generalizability in producing human-like manipulation sequences from open-ended language instructions. To ensure physical realism, we introduce a physics-guided dynamic refinement module that performs segment-wise joint optimization under generative and temporal priors, yielding smooth and physically feasible manipulation sequences. Across multiple datasets and real-world evaluations, UniHM attains state-of-the-art results on both seen and unseen objects and trajectories, demonstrating strong generalization and high physical feasibility. Our project page at \href{https://unihm.github.io/}{https://unihm.github.io/}.
- Abstract(参考訳): 身体的に実現可能な器用な手操作を計画することは、ロボット操作と身体的AIにおける中心的な課題である。
それまでの作業は、典型的にはオブジェクト中心のキューや正確に手動の相互作用シーケンスに依存しており、オープン語彙指導のリッチで構成的な指導を先導している。
自由形式の言語コマンドで案内される手操作を統一する最初のフレームワークであるUniHMを紹介する。
異種手形を1つの共有コードブックにマッピングし、異種手形一般化と拡張性を改良した統一手形整形器を提案する。
我々の視覚言語行動モデルは、人間とオブジェクトの相互作用データのみに基づいて訓練されており、大規模な実世界の遠隔操作データセットの必要性を排除し、オープンエンド言語命令から人間に似た操作シーケンスを生成するための強力な一般化性を実証している。
物理リアリズムを確実にするために、生成的および時間的先行の下でセグメントワイドな共同最適化を行い、スムーズかつ物理的に実現可能な操作列を生成する物理誘導動的洗練されたモジュールを導入する。
複数のデータセットと実世界の評価を通じて、UniHMは、見えていないオブジェクトと軌跡の両方に対して最先端の結果を獲得し、強力な一般化と高い物理的実現性を示す。
私たちのプロジェクトページは、 \href{https://unihm.github.io/}{https://unihm.github.io/} です。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation [20.50790587356819]
本稿では,新しいHAOIシーケンス生成フレームワークSynHLMAを提案する。
我々は、各手動オブジェクトの相互作用フレームをモデル化するために、個別のHAOI表現を使用する。
自然言語の埋め込みとともに、表現はHAOI操作言語モデルによって訓練される。
関節付き物体関節の動的変動に手つかみが追従されることを保証するために、関節認識損失を用いる。
論文 参考訳(メタデータ) (2025-10-29T08:27:00Z) - DexCanvas: Bridging Human Demonstrations and Robot Learning for Dexterous Manipulation [25.208854363099352]
このデータセットには、実際の人間の実演から70時間シードされた7000時間に及ぶ手-物体の相互作用が含まれている。
各エントリは、同期されたマルチビューRGB-D、MANOハンドパラメータによる高精度モキャップ、物理的に一貫した力プロファイルによるフレーム単位の接触点を組み合わせる。
私たちのリアル・トゥ・シムパイプラインは、物理シミュレーションにおいてアクティベートされたMANOハンドを制御するポリシーをトレーニングするために強化学習を使用します。
論文 参考訳(メタデータ) (2025-10-17T16:08:14Z) - TOUCH: Text-guided Controllable Generation of Free-Form Hand-Object Interactions [66.08264566003048]
Free-Form HOI Generationは、きめ細かいインテントで調整された制御可能な、多様性があり、物理的に妥当なHOIを生成することを目的としている。
われわれはWildO2を構築した。WildO2は、インターネットビデオから派生した多様なHOIを含む3D HOIデータセットである。
本データセットをベースとしたTOUCHは,多目的手ポーズを生成するための細粒度セマンティック制御を容易にする3段階フレームワークである。
論文 参考訳(メタデータ) (2025-10-16T16:52:58Z) - OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model [22.545267010077822]
オープンワールドHOI合成のための最初のフレームワークであるOpenHOIを紹介する。
本手法では,3次元マルチモーダル大規模言語モデル(MLLM)を統合して,協調的アベイランスグラウンドと意味的タスクの分解を行う。
物理的にもっともらしい相互作用を合成するために, トレーニング不要な物理リファインメント段階と組み合わせたアベイランス駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-05-25T02:48:43Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。