論文の概要: Inducing Structure in Reward Learning by Learning Features
- arxiv url: http://arxiv.org/abs/2201.07082v1
- Date: Tue, 18 Jan 2022 16:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 14:45:11.242208
- Title: Inducing Structure in Reward Learning by Learning Features
- Title(参考訳): 学習特徴による報酬学習の構造誘導
- Authors: Andreea Bobu, Marius Wiggert, Claire Tomlin, Anca D. Dragan
- Abstract要約: 本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から複雑な特徴を学習するアルゴリズムを紹介する。
当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。
- 参考スコア(独自算出の注目度): 31.413656752926208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward learning enables robots to learn adaptable behaviors from human input.
Traditional methods model the reward as a linear function of hand-crafted
features, but that requires specifying all the relevant features a priori,
which is impossible for real-world tasks. To get around this issue, recent deep
Inverse Reinforcement Learning (IRL) methods learn rewards directly from the
raw state but this is challenging because the robot has to implicitly learn the
features that are important and how to combine them, simultaneously. Instead,
we propose a divide and conquer approach: focus human input specifically on
learning the features separately, and only then learn how to combine them into
a reward. We introduce a novel type of human input for teaching features and an
algorithm that utilizes it to learn complex features from the raw state space.
The robot can then learn how to combine them into a reward using
demonstrations, corrections, or other reward learning frameworks. We
demonstrate our method in settings where all features have to be learned from
scratch, as well as where some of the features are known. By first focusing
human input specifically on the feature(s), our method decreases sample
complexity and improves generalization of the learned reward over a deepIRL
baseline. We show this in experiments with a physical 7DOF robot manipulator,
as well as in a user study conducted in a simulated environment.
- Abstract(参考訳): リワード学習により、ロボットは人間の入力から適応的な行動を学ぶことができる。
従来の手法では、報酬を手作りの機能の線形関数としてモデル化するが、実際のタスクでは不可能である、すべての関連する特徴を事前に指定する必要がある。
この問題を回避するために、最近のDeep Inverse Reinforcement Learning (IRL)メソッドは生の状態から直接報酬を学習するが、ロボットは重要な機能とそれらを同時に組み合わせる方法を暗黙的に学ぶ必要があるため、これは難しい。
その代わり、分割と克服のアプローチを提案します。特徴を個別に学習することに特化した人間のインプットに注目し、それらを報酬に組み合わせる方法のみを学びます。
本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から学習するアルゴリズムを紹介する。
ロボットは、デモや修正、その他の報酬学習フレームワークを使って、報酬と組み合わせる方法を学ぶことができる。
当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。
提案手法は,まず特徴に焦点をあてることで,サンプルの複雑さを低減し,深いIRLベースライン上での学習報酬の一般化を向上する。
本研究は,7dofロボットマニピュレータを用いた実験や,シミュレーション環境でのユーザ実験で紹介する。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - Feature Expansive Reward Learning: Rethinking Human Input [31.413656752926208]
そこで我々は,ロボットが教えている特徴が表現されていない状態からロボットを誘導する新しいタイプの人間入力を紹介した。
本稿では,その特徴を生の状態空間から学習し,報酬関数に組み込むアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:59:34Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - The Ingredients of Real-World Robotic Reinforcement Learning [71.92831985295163]
実世界で収集されたデータによって継続的に自律的に改善できるロボット学習システムに必要な要素について論じる。
本稿では,このようなシステムの特異なインスタンス化を事例として,デクスタラスな操作を事例として提案する。
我々は人間の介入なしに学習できることを実証し、現実世界の3本指の手で様々な視覚ベースのスキルを習得する。
論文 参考訳(メタデータ) (2020-04-27T03:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。