論文の概要: Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans
- arxiv url: http://arxiv.org/abs/2312.00775v1
- Date: Fri, 1 Dec 2023 18:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 13:37:39.530098
- Title: Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans
- Title(参考訳): ヒューマンインタラクション計画の翻訳による汎用ゼロショットマニピュレーションに向けて
- Authors: Homanga Bharadhwaj, Abhinav Gupta, Vikash Kumar, Shubham Tulsiani
- Abstract要約: 我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
- 参考スコア(独自算出の注目度): 58.27029676638521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We pursue the goal of developing robots that can interact zero-shot with
generic unseen objects via a diverse repertoire of manipulation skills and show
how passive human videos can serve as a rich source of data for learning such
generalist robots. Unlike typical robot learning approaches which directly
learn how a robot should act from interaction data, we adopt a factorized
approach that can leverage large-scale human videos to learn how a human would
accomplish a desired task (a human plan), followed by translating this plan to
the robots embodiment. Specifically, we learn a human plan predictor that,
given a current image of a scene and a goal image, predicts the future hand and
object configurations. We combine this with a translation module that learns a
plan-conditioned robot manipulation policy, and allows following humans plans
for generic manipulation tasks in a zero-shot manner with no deployment-time
training. Importantly, while the plan predictor can leverage large-scale human
videos for learning, the translation module only requires a small amount of
in-domain data, and can generalize to tasks not seen during training. We show
that our learned system can perform over 16 manipulation skills that generalize
to 40 objects, encompassing 100 real-world tasks for table-top manipulation and
diverse in-the-wild manipulation. https://homangab.github.io/hopman/
- Abstract(参考訳): 我々は,多様な操作スキルのレパートリーを通じて,汎用的未認識物体とゼロショットで対話できるロボットを開発することの目標を追求し,そのような汎用的ロボットを学習するための豊かなデータソースとして,受動的人間のビデオがどのように機能するかを示す。
ロボットが対話データからどのように振る舞うかを直接学習する一般的なロボット学習アプローチとは異なり、我々は大規模な人間のビデオを利用して、人間が望むタスク(人間の計画)をどのように達成するかを学習し、次にこの計画をロボットの実施形態に翻訳する。
具体的には、シーンの現在の画像と目標画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
我々はこれを、計画条件のロボット操作ポリシーを学習する翻訳モジュールと組み合わせ、デプロイ時トレーニングなしでゼロショットで汎用的な操作タスクの計画に従うことができる。
重要なことは、計画予測器は学習のために大規模な人間のビデオを利用することができるが、翻訳モジュールは少数のドメイン内データしか必要とせず、訓練中に見えないタスクに一般化することができる。
学習したシステムは,実世界の100タスクを包含し,40個のオブジェクトに一般化した16以上の操作スキルを発揮できることを示す。
https://homangab.github.io/hopman/
関連論文リスト
- Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。