論文の概要: ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos
- arxiv url: http://arxiv.org/abs/2503.23877v1
- Date: Mon, 31 Mar 2025 09:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:10.454684
- Title: ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos
- Title(参考訳): ZeroMimic:Webビデオからロボットのマニピュレーションスキルを蒸留する
- Authors: Junyao Shi, Zhuolun Zhao, Tianyou Wang, Ian Pedroza, Amy Luo, Jie Wang, Jason Ma, Dinesh Jayaraman,
- Abstract要約: ZeroMimicは、複数の共通操作タスクに対して、イメージ目標条件のスキルポリシーを生成する。
我々は,ZeroMimicのアウト・オブ・ボックス性能を実環境やシミュレートされたキッチン設定で評価した。
他のタスク設定やロボット上でZeroMimicポリシーをプラグアンドプレイで再利用するために、ソフトウェアとポリシーチェックポイントをリリースする。
- 参考スコア(独自算出の注目度): 15.809468471562537
- License:
- Abstract: Many recent advances in robotic manipulation have come through imitation learning, yet these rely largely on mimicking a particularly hard-to-acquire form of demonstrations: those collected on the same robot in the same room with the same objects as the trained policy must handle at test time. In contrast, large pre-recorded human video datasets demonstrating manipulation skills in-the-wild already exist, which contain valuable information for robots. Is it possible to distill a repository of useful robotic skill policies out of such data without any additional requirements on robot-specific demonstrations or exploration? We present the first such system ZeroMimic, that generates immediately deployable image goal-conditioned skill policies for several common categories of manipulation tasks (opening, closing, pouring, pick&place, cutting, and stirring) each capable of acting upon diverse objects and across diverse unseen task setups. ZeroMimic is carefully designed to exploit recent advances in semantic and geometric visual understanding of human videos, together with modern grasp affordance detectors and imitation policy classes. After training ZeroMimic on the popular EpicKitchens dataset of ego-centric human videos, we evaluate its out-of-the-box performance in varied real-world and simulated kitchen settings with two different robot embodiments, demonstrating its impressive abilities to handle these varied tasks. To enable plug-and-play reuse of ZeroMimic policies on other task setups and robots, we release software and policy checkpoints of our skill policies.
- Abstract(参考訳): ロボット操作の最近の進歩は、模倣学習によってもたらされているが、それらは主に、特に難しい形のデモを模倣することに依存している: 訓練されたポリシーがテスト時に扱わなければならないものと同じ部屋の同じロボットで収集されたもの。
対照的に、Wildでの操作スキルを示す人間のビデオデータセットは、ロボットにとって貴重な情報を含んでいる。
ロボット固有のデモンストレーションや探索の余分な必要なしに、そのようなデータから有用なロボットスキルポリシーのリポジトリを抽出することは可能か?
操作タスク(開き、閉じ、注ぐ、ピックアンドプレース、カット、かき混ぜ)の共通カテゴリに対して、即座に展開可能な画像目標条件のスキルポリシーを生成するZeroMimicというシステムについて述べる。
ZeroMimicは、人間のビデオのセマンティックおよび幾何学的視覚的理解の最近の進歩と、現代の把握能力検知器と模倣ポリシークラスを活用するために慎重に設計されている。
ZeroMimicは、エゴ中心の人間ビデオの一般的なEpicKitchensデータセットでトレーニングした後、さまざまな現実世界とシミュレーションされたキッチン設定におけるアウト・オブ・ボックスのパフォーマンスを2つの異なるロボットエボディメントで評価し、これらのさまざまなタスクを処理できる印象的な能力を実証した。
他のタスク設定やロボット上でZeroMimicポリシーのプラグアンドプレイ再利用を可能にするため、我々はスキルポリシーのソフトウェアとポリシーチェックポイントをリリースする。
関連論文リスト
- Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。