論文の概要: Learning Reward Functions for Robotic Manipulation by Observing Humans
- arxiv url: http://arxiv.org/abs/2211.09019v1
- Date: Wed, 16 Nov 2022 16:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:53:03.538363
- Title: Learning Reward Functions for Robotic Manipulation by Observing Humans
- Title(参考訳): 人間の観察によるロボット操作のための学習報酬関数
- Authors: Minttu Alakuijala, Gabriel Dulac-Arnold, Julien Mairal, Jean Ponce and
Cordelia Schmid
- Abstract要約: 我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
- 参考スコア(独自算出の注目度): 92.30657414416527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Observing a human demonstrator manipulate objects provides a rich, scalable
and inexpensive source of data for learning robotic policies. However,
transferring skills from human videos to a robotic manipulator poses several
challenges, not least a difference in action and observation spaces. In this
work, we use unlabeled videos of humans solving a wide range of manipulation
tasks to learn a task-agnostic reward function for robotic manipulation
policies. Thanks to the diversity of this training data, the learned reward
function sufficiently generalizes to image observations from a previously
unseen robot embodiment and environment to provide a meaningful prior for
directed exploration in reinforcement learning. The learned rewards are based
on distances to a goal in an embedding space learned using a time-contrastive
objective. By conditioning the function on a goal image, we are able to reuse
one model across a variety of tasks. Unlike prior work on leveraging human
videos to teach robots, our method, Human Offline Learned Distances (HOLD)
requires neither a priori data from the robot environment, nor a set of
task-specific human demonstrations, nor a predefined notion of correspondence
across morphologies, yet it is able to accelerate training of several
manipulation tasks on a simulated robot arm compared to using only a sparse
reward obtained from task completion.
- Abstract(参考訳): 人間のデモンストレーターがオブジェクトを操作するのを見ることは、ロボットポリシーを学ぶためのリッチでスケーラブルで安価なデータソースを提供する。
しかしながら、人間のビデオからロボットマニピュレータにスキルを移すことにはいくつかの課題があり、特に行動と観察空間の違いがある。
本研究では、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
このトレーニングデータの多様性により、学習した報奨関数は、これまで見えないロボットの体現と環境からの画像観察を十分に一般化し、強化学習における直接探索の有意義な事前情報を提供する。
学習された報酬は、時間連続目的を用いて学習される埋め込み空間における目標までの距離に基づいている。
目標画像上で関数を条件付けすることで、さまざまなタスクで1つのモデルを再利用できます。
ロボットの教示にヒトビデオを活用する従来の手法とは異なり、人間のオフライン学習距離(HOLD)では、ロボット環境からの事前データやタスク固有の人間の実演のセット、形態素間の対応に関する事前定義された概念は必要とせず、タスク完了から得られるスパース報酬のみを使用して、シミュレーションされたロボットアーム上のいくつかの操作タスクのトレーニングを高速化することができる。
関連論文リスト
- Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。