論文の概要: Learning Reward Functions for Robotic Manipulation by Observing Humans
- arxiv url: http://arxiv.org/abs/2211.09019v1
- Date: Wed, 16 Nov 2022 16:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:53:03.538363
- Title: Learning Reward Functions for Robotic Manipulation by Observing Humans
- Title(参考訳): 人間の観察によるロボット操作のための学習報酬関数
- Authors: Minttu Alakuijala, Gabriel Dulac-Arnold, Julien Mairal, Jean Ponce and
Cordelia Schmid
- Abstract要約: 我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
- 参考スコア(独自算出の注目度): 92.30657414416527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Observing a human demonstrator manipulate objects provides a rich, scalable
and inexpensive source of data for learning robotic policies. However,
transferring skills from human videos to a robotic manipulator poses several
challenges, not least a difference in action and observation spaces. In this
work, we use unlabeled videos of humans solving a wide range of manipulation
tasks to learn a task-agnostic reward function for robotic manipulation
policies. Thanks to the diversity of this training data, the learned reward
function sufficiently generalizes to image observations from a previously
unseen robot embodiment and environment to provide a meaningful prior for
directed exploration in reinforcement learning. The learned rewards are based
on distances to a goal in an embedding space learned using a time-contrastive
objective. By conditioning the function on a goal image, we are able to reuse
one model across a variety of tasks. Unlike prior work on leveraging human
videos to teach robots, our method, Human Offline Learned Distances (HOLD)
requires neither a priori data from the robot environment, nor a set of
task-specific human demonstrations, nor a predefined notion of correspondence
across morphologies, yet it is able to accelerate training of several
manipulation tasks on a simulated robot arm compared to using only a sparse
reward obtained from task completion.
- Abstract(参考訳): 人間のデモンストレーターがオブジェクトを操作するのを見ることは、ロボットポリシーを学ぶためのリッチでスケーラブルで安価なデータソースを提供する。
しかしながら、人間のビデオからロボットマニピュレータにスキルを移すことにはいくつかの課題があり、特に行動と観察空間の違いがある。
本研究では、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
このトレーニングデータの多様性により、学習した報奨関数は、これまで見えないロボットの体現と環境からの画像観察を十分に一般化し、強化学習における直接探索の有意義な事前情報を提供する。
学習された報酬は、時間連続目的を用いて学習される埋め込み空間における目標までの距離に基づいている。
目標画像上で関数を条件付けすることで、さまざまなタスクで1つのモデルを再利用できます。
ロボットの教示にヒトビデオを活用する従来の手法とは異なり、人間のオフライン学習距離(HOLD)では、ロボット環境からの事前データやタスク固有の人間の実演のセット、形態素間の対応に関する事前定義された概念は必要とせず、タスク完了から得られるスパース報酬のみを使用して、シミュレーションされたロボットアーム上のいくつかの操作タスクのトレーニングを高速化することができる。
関連論文リスト
- Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。