論文の概要: ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.02465v1
- Date: Sat, 5 Feb 2022 02:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-13 17:09:33.278509
- Title: ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning
- Title(参考訳): ASHA:ヒューマン・イン・ザ・ループ強化学習による補助的遠隔操作
- Authors: Sean Chen, Jensen Gao, Siddharth Reddy, Glen Berseth, Anca D. Dragan,
Sergey Levine
- Abstract要約: オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
- 参考スコア(独自算出の注目度): 91.58711082348293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building assistive interfaces for controlling robots through arbitrary,
high-dimensional, noisy inputs (e.g., webcam images of eye gaze) can be
challenging, especially when it involves inferring the user's desired action in
the absence of a natural 'default' interface. Reinforcement learning from
online user feedback on the system's performance presents a natural solution to
this problem, and enables the interface to adapt to individual users. However,
this approach tends to require a large amount of human-in-the-loop training
data, especially when feedback is sparse. We propose a hierarchical solution
that learns efficiently from sparse user feedback: we use offline pre-training
to acquire a latent embedding space of useful, high-level robot behaviors,
which, in turn, enables the system to focus on using online user feedback to
learn a mapping from user inputs to desired high-level behaviors. The key
insight is that access to a pre-trained policy enables the system to learn more
from sparse rewards than a na\"ive RL algorithm: using the pre-trained policy,
the system can make use of successful task executions to relabel, in hindsight,
what the user actually meant to do during unsuccessful executions. We evaluate
our method primarily through a user study with 12 participants who perform
tasks in three simulated robotic manipulation domains using a webcam and their
eye gaze: flipping light switches, opening a shelf door to reach objects
inside, and rotating a valve. The results show that our method successfully
learns to map 128-dimensional gaze features to 7-dimensional joint torques from
sparse rewards in under 10 minutes of online training, and seamlessly helps
users who employ different gaze strategies, while adapting to distributional
shift in webcam inputs, tasks, and environments.
- Abstract(参考訳): ロボットを制御するための補助インタフェースの構築は、特に自然な「デフォルト」インターフェースがない場合、特にユーザーが望む動作を推測する場合、任意で高次元のノイズ入力(例えば、視線のウェブカメラ画像)によって難しい。
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策を示し、インターフェースを個々のユーザに適用できるようにする。
しかしこのアプローチでは,特にフィードバックが不足している場合には,ループ内トレーニングデータを大量に必要とします。
そこで,我々はオフラインの事前学習を用いて,有益でハイレベルなロボット行動の潜在埋め込み空間を取得できる階層的ソリューションを提案し,それによってシステムでは,オンラインユーザフィードバックの利用に集中して,ユーザの入力から所望のハイレベル行動へのマッピングを学ぶことができる。
重要な洞察は、事前訓練されたポリシーへのアクセスにより、システムはna\"ive RLアルゴリズムよりもスパース報酬からより多くを学ぶことができるということだ。
本手法は,ウェブカメラと視線を用いた3つのロボット操作領域のタスクを行う12人の被験者によるユーザスタディにより評価された。
その結果,ウェブカメラの入力,タスク,環境の分布変化に適応しつつ,異なる視線戦略を利用するユーザをシームレスに支援し,オンライントレーニングの10分以内のスパース報酬から7次元関節トルクに128次元視線特徴をマッピングすることに成功した。
関連論文リスト
- Bootstrapping Adaptive Human-Machine Interfaces with Offline
Reinforcement Learning [82.91837418721182]
適応インターフェイスは、ユーザがシーケンシャルな意思決定タスクを実行するのに役立つ。
近年のヒューマン・イン・ザ・ループ・機械学習の進歩により、ユーザとの対話によってこのようなシステムが改善されている。
本稿では,生のコマンド信号をアクションにマッピングするインタフェースを訓練するための強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-07T16:52:27Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - Inducing Structure in Reward Learning by Learning Features [31.413656752926208]
本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から複雑な特徴を学習するアルゴリズムを紹介する。
当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。
論文 参考訳(メタデータ) (2022-01-18T16:02:29Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Interactive Search Based on Deep Reinforcement Learning [4.353144350714567]
このプロジェクトは主にオフライントレーニングのための仮想ユーザ環境を確立する。
同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。
論文 参考訳(メタデータ) (2020-12-09T15:23:53Z) - Human-guided Robot Behavior Learning: A GAN-assisted Preference-based
Reinforcement Learning Approach [2.9764834057085716]
本稿では,新しいGAN支援人間嗜好に基づく強化学習手法を提案する。
GAN(Generative Adversarial Network)を使用して、人間の嗜好を積極的に学習し、選好を割り当てる際の人間の役割を置き換える。
本手法は, 性能犠牲を伴わずに, 約99.8%の人的時間を短縮することができる。
論文 参考訳(メタデータ) (2020-10-15T01:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。