論文の概要: Feature Expansive Reward Learning: Rethinking Human Input
- arxiv url: http://arxiv.org/abs/2006.13208v2
- Date: Tue, 12 Jan 2021 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:41:11.028641
- Title: Feature Expansive Reward Learning: Rethinking Human Input
- Title(参考訳): 機能拡張リワード学習 : 人間の入力を再考する
- Authors: Andreea Bobu, Marius Wiggert, Claire Tomlin, Anca D. Dragan
- Abstract要約: そこで我々は,ロボットが教えている特徴が表現されていない状態からロボットを誘導する新しいタイプの人間入力を紹介した。
本稿では,その特徴を生の状態空間から学習し,報酬関数に組み込むアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 31.413656752926208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a person is not satisfied with how a robot performs a task, they can
intervene to correct it. Reward learning methods enable the robot to adapt its
reward function online based on such human input, but they rely on handcrafted
features. When the correction cannot be explained by these features, recent
work in deep Inverse Reinforcement Learning (IRL) suggests that the robot could
ask for task demonstrations and recover a reward defined over the raw state
space. Our insight is that rather than implicitly learning about the missing
feature(s) from demonstrations, the robot should instead ask for data that
explicitly teaches it about what it is missing. We introduce a new type of
human input in which the person guides the robot from states where the feature
being taught is highly expressed to states where it is not. We propose an
algorithm for learning the feature from the raw state space and integrating it
into the reward function. By focusing the human input on the missing feature,
our method decreases sample complexity and improves generalization of the
learned reward over the above deep IRL baseline. We show this in experiments
with a physical 7DOF robot manipulator, as well as in a user study conducted in
a simulated environment.
- Abstract(参考訳): ロボットがタスクを実行する方法に満足していない場合、それを修正するために介入することができる。
逆学習法により、ロボットは人間の入力に基づいて報酬関数をオンラインで適応できるが、手作りの機能に依存している。
これらの特徴で補正が説明できない場合、deep inverse reinforcement learning (irl)の最近の研究は、ロボットがタスクのデモンストレーションを要求し、生の状態空間上で定義された報酬を回収できることを示唆している。
私たちの洞察では、デモから欠けている機能について暗黙的に学ぶのではなく、ロボットは、何が欠けているかを明示的に教えるデータを求めるべきである。
そこで我々は,ロボットが教えている特徴が表現されていない状態からロボットを誘導する新しいタイプの人間入力を紹介した。
本稿では,生の状態空間から特徴を学習し,それを報酬関数に統合するアルゴリズムを提案する。
人間の入力を欠落した特徴に焦点を合わせることで、サンプルの複雑さを減らし、上記の深いIRLベースラインに対する学習報酬の一般化を改善する。
本研究は,7dofロボットマニピュレータを用いた実験や,シミュレーション環境でのユーザ実験で紹介する。
関連論文リスト
- Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Aligning Robot and Human Representations [50.070982136315784]
ロボット工学における現在の表現学習アプローチは、表現アライメントの目的がいかにうまく達成されているかの観点から研究されるべきである。
問題を数学的に定義し、その鍵となるデシダータを同定し、この形式主義の中に現在の方法を置く。
論文 参考訳(メタデータ) (2023-02-03T18:59:55Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-03-03T17:06:37Z) - Inducing Structure in Reward Learning by Learning Features [31.413656752926208]
本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から複雑な特徴を学習するアルゴリズムを紹介する。
当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。
論文 参考訳(メタデータ) (2022-01-18T16:02:29Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。