論文の概要: Dexterous Manipulation Policies from RGB Human Videos via 4D Hand-Object Trajectory Reconstruction
- arxiv url: http://arxiv.org/abs/2602.09013v1
- Date: Mon, 09 Feb 2026 18:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.438913
- Title: Dexterous Manipulation Policies from RGB Human Videos via 4D Hand-Object Trajectory Reconstruction
- Title(参考訳): 4Dハンドオブジェクト軌道再構成によるRGBヒューマンビデオからのデクサラスマニピュレーション
- Authors: Hongyi Chen, Tony Dong, Tiancheng Wu, Liquan Wang, Yash Jangir, Yaru Niu, Yufei Ye, Homanga Bharadhwaj, Zackory Erickson, Jeffrey Ichnowski,
- Abstract要約: 我々は,RGBのヒューマンビデオから直接デクスタラスな操作を学習する,デバイスフリーのフレームワークであるVIDEOMANIPを提案する。
シミュレーションでは、学習した把握モデルはインスパイアハンドを用いて20種類のオブジェクトに対して70.25%の成功率を達成する。
実世界では、RGBビデオから訓練された操作ポリシーは、LEAPハンドを使用して7つのタスクで平均62.86%の成功率を達成する。
- 参考スコア(独自算出の注目度): 24.49384094440561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-finger robotic hand manipulation and grasping are challenging due to the high-dimensional action space and the difficulty of acquiring large-scale training data. Existing approaches largely rely on human teleoperation with wearable devices or specialized sensing equipment to capture hand-object interactions, which limits scalability. In this work, we propose VIDEOMANIP, a device-free framework that learns dexterous manipulation directly from RGB human videos. Leveraging recent advances in computer vision, VIDEOMANIP reconstructs explicit 4D robot-object trajectories from monocular videos by estimating human hand poses, object meshes, and retargets the reconstructed human motions to robotic hands for manipulation learning. To make the reconstructed robot data suitable for dexterous manipulation training, we introduce hand-object contact optimization with interaction-centric grasp modeling, as well as a demonstration synthesis strategy that generates diverse training trajectories from a single video, enabling generalizable policy learning without additional robot demonstrations. In simulation, the learned grasping model achieves a 70.25% success rate across 20 diverse objects using the Inspire Hand. In the real world, manipulation policies trained from RGB videos achieve an average 62.86% success rate across seven tasks using the LEAP Hand, outperforming retargeting-based methods by 15.87%. Project videos are available at videomanip.github.io.
- Abstract(参考訳): マルチフィンガーハンド操作と把握は,高次元動作空間と大規模トレーニングデータの取得が困難であるために困難である。
既存のアプローチは、スケーラビリティを制限する手動物体の相互作用を捉えるために、ウェアラブルデバイスや特殊なセンサー機器との人間の遠隔操作に大きく依存している。
本研究では,RGBのヒューマンビデオから直接デクスタラスな操作を学習するデバイスフリーフレームワークであるVIDEOMANIPを提案する。
コンピュータビジョンの最近の進歩を活用して、VIDEOMANIPは、人間の手ポーズ、オブジェクトメッシュを推定して、モノクロビデオから明示的な4Dロボットオブジェクトの軌跡を再構築し、再構成された人間の動きをロボットハンドに再ターゲットし、学習を操作できるようにする。
遠隔操作訓練に適した再構成されたロボットデータを作成するため,インタラクション中心のグリップモデルを用いた手動接触最適化と,単一ビデオから多様なトレーニング軌跡を生成する実演合成戦略を導入し,追加のロボットデモを行なわずに汎用的なポリシー学習を可能にする。
シミュレーションでは、学習した把握モデルはインスパイアハンドを用いて20種類のオブジェクトに対して70.25%の成功率を達成する。
実世界では、RGBビデオからトレーニングされた操作ポリシーは、LEAPハンドを使用して7つのタスクで平均62.86%の成功率を獲得し、リターゲティングベースの手法を15.87%上回っている。
プロジェクトビデオは videomanip.github.io で公開されている。
関連論文リスト
- H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation [35.97702591413093]
一つのRGB-Dビデオから操作計画を生成する方法であるOKAMIを紹介する。
OKAMIは、オープンワールドビジョンモデルを使用して、タスク関連オブジェクトを特定し、身体の動きと手ポーズを別々に再ターゲットする。
論文 参考訳(メタデータ) (2024-10-15T17:17:54Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - From One Hand to Multiple Hands: Imitation Learning for Dexterous
Manipulation from Single-Camera Teleoperation [26.738893736520364]
我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。
我々は,操作者の手の構造と形状が同じであるマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築する。
データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2022-04-26T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。