論文の概要: DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos
- arxiv url: http://arxiv.org/abs/2602.10105v1
- Date: Tue, 10 Feb 2026 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.340056
- Title: DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos
- Title(参考訳): DexImit: モノクラーヒューマンビデオから2次元デキステラスマニピュレーションを学習する
- Authors: Juncheng Mu, Sizhe Yang, Yiming Bao, Hojin Bae, Tianming Wei, Linning Xu, Boyi Li, Huazhe Xu, Jiangmiao Pang,
- Abstract要約: DexImitは、人間の操作映像を物理的に妥当なロボットデータに変換する自動フレームワークである。
DexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。
ツールの使用、長距離タスク、きめ細かい操作を含む多様な操作タスクを処理できる。
- 参考スコア(独自算出の注目度): 56.64773686434068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scarcity fundamentally limits the generalization of bimanual dexterous manipulation, as real-world data collection for dexterous hands is expensive and labor-intensive. Human manipulation videos, as a direct carrier of manipulation knowledge, offer significant potential for scaling up robot learning. However, the substantial embodiment gap between human hands and robotic dexterous hands makes direct pretraining from human videos extremely challenging. To bridge this gap and unleash the potential of large-scale human manipulation video data, we propose DexImit, an automated framework that converts monocular human manipulation videos into physically plausible robot data, without any additional information. DexImit employs a four-stage generation pipeline: (1) reconstructing hand-object interactions from arbitrary viewpoints with near-metric scale; (2) performing subtask decomposition and bimanual scheduling; (3) synthesizing robot trajectories consistent with the demonstrated interactions; (4) comprehensive data augmentation for zero-shot real-world deployment. Building on these designs, DexImit can generate large-scale robot data based on human videos, either from the Internet or video generation models. DexImit is capable of handling diverse manipulation tasks, including tool use (e.g., cutting an apple), long-horizon tasks (e.g., making a beverage), and fine-grained manipulations (e.g., stacking cups).
- Abstract(参考訳): データ不足は、デキスタラスハンドの実際のデータ収集が高価で労働集約的であるため、二元的デキスタラス操作の一般化を根本的に制限する。
人間の操作ビデオは、操作に関する知識の直接的な担い手として、ロボット学習をスケールアップする大きな可能性を秘めている。
しかし、人間の手とロボットの手の実質的な具体化のギャップは、人間のビデオから直接の事前訓練を非常に困難にしている。
このギャップを埋めて、大規模な人体操作ビデオデータの可能性を解き放つために、モノラルな人体操作ビデオから物理的に妥当なロボットデータに変換する自動フレームワークであるDexImitを提案する。
DexImitは,(1)任意の視点から近距離スケールで手動物体の相互作用を再構築する,(2)サブタスク分解と双方向スケジューリングを行う,(3)実証された相互作用と整合したロボット軌道を合成する,(4)ゼロショットの実環境展開のための包括的データ拡張を行う,という4段階生成パイプラインを採用している。
これらの設計に基づいてDexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。
DexImitは、ツールの使用(例:リンゴを切る)、長期タスク(例:飲み物を作る)、きめ細かい操作(例:カップを積み上げる)など、さまざまな操作タスクを処理できる。
関連論文リスト
- DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation [39.95361636017463]
周操作は、人間の操作を感知し記録し、実際のロボットへのデータの転送可能性を最大化する、ロボットデータ収集のパラダイムである。
我々は,このパラダイムを,自然環境における多種多様な操作タスクのためのリッチな感覚(視覚+触覚)データ収集能力の最大化を目的とした,受動的手外骨格であるDEXOPに実装する。
論文 参考訳(メタデータ) (2025-09-04T17:57:13Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning [42.88605563822155]
本稿では,人間の手による人型ロボットの人体実験からトラジェクトリを合成する大規模自動データ生成システムを提案する。
私たちは、たった60のソースの人間デモから、これらのタスク全体で21Kのデモを生成します。
また、実世界のヒューマノイド缶ソートタスクに、実世界のシミュレート・トゥ・リアルパイプラインを配置する。
論文 参考訳(メタデータ) (2024-10-31T17:48:45Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - From One Hand to Multiple Hands: Imitation Learning for Dexterous
Manipulation from Single-Camera Teleoperation [26.738893736520364]
我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。
我々は,操作者の手の構造と形状が同じであるマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築する。
データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2022-04-26T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。