論文の概要: EasyMimic: A Low-Cost Framework for Robot Imitation Learning from Human Videos
- arxiv url: http://arxiv.org/abs/2602.11464v1
- Date: Thu, 12 Feb 2026 00:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.384542
- Title: EasyMimic: A Low-Cost Framework for Robot Imitation Learning from Human Videos
- Title(参考訳): EasyMimic:人間ビデオからのロボット模倣学習のための低コストフレームワーク
- Authors: Tao Zhang, Song Xia, Ye Wang, Qin Jin,
- Abstract要約: EasyMimicは、人間のビデオデモからロボットが操作ポリシーを学習することを可能にするフレームワークである。
本手法は,まずビデオから手指の3次元軌跡を抽出する。
アクションアライメントモジュールは、これらの軌道を低コストロボットのグリップ制御空間にマッピングする。
- 参考スコア(独自算出の注目度): 51.158081196253626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot imitation learning is often hindered by the high cost of collecting large-scale, real-world data. This challenge is especially significant for low-cost robots designed for home use, as they must be both user-friendly and affordable. To address this, we propose the EasyMimic framework, a low-cost and replicable solution that enables robots to quickly learn manipulation policies from human video demonstrations captured with standard RGB cameras. Our method first extracts 3D hand trajectories from the videos. An action alignment module then maps these trajectories to the gripper control space of a low-cost robot. To bridge the human-to-robot domain gap, we introduce a simple and user-friendly hand visual augmentation strategy. We then use a co-training method, fine-tuning a model on both the processed human data and a small amount of robot data, enabling rapid adaptation to new tasks. Experiments on the low-cost LeRobot platform demonstrate that EasyMimic achieves high performance across various manipulation tasks. It significantly reduces the reliance on expensive robot data collection, offering a practical path for bringing intelligent robots into homes. Project website: https://zt375356.github.io/EasyMimic-Project/.
- Abstract(参考訳): ロボット模倣学習は、大規模な実世界のデータを収集するコストが高いため、しばしば妨げられる。
この課題は、家庭用に設計された低コストロボットにとって特に重要であり、ユーザーフレンドリーで手頃な価格でなければならない。
そこで本研究では,ロボットが標準的なRGBカメラでキャプチャした人間のビデオデモから,操作ポリシーを迅速に学習することのできる,低コストでレプリカ可能なソリューションであるEasyMimicフレームワークを提案する。
本手法は,まずビデオから手指の3次元軌跡を抽出する。
アクションアライメントモジュールは、これらの軌道を低コストロボットのグリップ制御空間にマッピングする。
ヒューマン・ロボット・ドメインのギャップを埋めるために、シンプルでユーザフレンドリーな視覚拡張戦略を導入する。
次に、協調学習法を用いて、処理された人間のデータと少量のロボットデータの両方のモデルを微調整し、新しいタスクへの迅速な適応を可能にする。
低コストのLeRobotプラットフォームでの実験では、EasyMimicはさまざまな操作タスクで高いパフォーマンスを実現している。
高価なロボットのデータ収集への依存を大幅に減らし、インテリジェントなロボットを家庭に持ち込むための実践的な道筋を提供する。
プロジェクトWebサイト: https://zt375356.github.io/EasyMimic-Project/。
関連論文リスト
- H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - Dexterity from Smart Lenses: Multi-Fingered Robot Manipulation with In-the-Wild Human Demonstrations [52.29884993824894]
自然環境で日々のタスクを行う人間から、マルチフィンガーロボットポリシーを学ぶことは、ロボットコミュニティにとって長年の大きな目標だった。
AINAは、Aria Gen 2メガネを使用して、どこでも、どこでも、あらゆる環境で収集されたデータから、マルチフィンガーポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2025-11-20T18:59:02Z) - From Human Hands to Robot Arms: Manipulation Skills Transfer via Trajectory Alignment [36.08997778717271]
現実世界のロボットの多様な操作スキルを学ぶことは、高価でスケールの難しい遠隔操作によるデモンストレーションに依存することでボトルネックとなる。
本稿では,操作終端の3次元軌跡を統一中間表現として利用することにより,この実施ギャップを橋渡しする新しいフレームワークであるTraj2Actionを紹介する。
我々の方針はまず,人間とロボットの両方のデータを活用することで,高レベルの運動計画を形成する粗い軌道を生成することを学習する。
論文 参考訳(メタデータ) (2025-10-01T04:21:12Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - From One Hand to Multiple Hands: Imitation Learning for Dexterous
Manipulation from Single-Camera Teleoperation [26.738893736520364]
我々は,iPadとコンピュータのみで3Dデモを効率的に収集する,新しい単一カメラ遠隔操作システムを提案する。
我々は,操作者の手の構造と形状が同じであるマニピュレータである物理シミュレータにおいて,各ユーザ向けにカスタマイズされたロボットハンドを構築する。
データを用いた模倣学習では、複数の複雑な操作タスクでベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2022-04-26T17:59:51Z) - Know Thyself: Transferable Visuomotor Control Through Robot-Awareness [22.405839096833937]
新しいロボットをスクラッチからトレーニングするためには、通常大量のロボット固有のデータを生成する必要がある。
簡単なロボット「自己認識」を活用する「ロボット認識」ソリューションパラダイムを提案する。
シミュレーションおよび実際のロボットにおけるテーブルトップ操作に関する実験により、これらのプラグインの改善により、ビジュモータコントローラの転送性が劇的に向上することを示した。
論文 参考訳(メタデータ) (2021-07-19T17:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。