論文の概要: Bootstrapping Adaptive Human-Machine Interfaces with Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.03839v1
- Date: Thu, 7 Sep 2023 16:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:08:30.002969
- Title: Bootstrapping Adaptive Human-Machine Interfaces with Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習を用いたブートストラップ適応型ヒューマンマシンインタフェース
- Authors: Jensen Gao, Siddharth Reddy, Glen Berseth, Anca D. Dragan, Sergey
Levine
- Abstract要約: 適応インターフェイスは、ユーザがシーケンシャルな意思決定タスクを実行するのに役立つ。
近年のヒューマン・イン・ザ・ループ・機械学習の進歩により、ユーザとの対話によってこのようなシステムが改善されている。
本稿では,生のコマンド信号をアクションにマッピングするインタフェースを訓練するための強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 82.91837418721182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive interfaces can help users perform sequential decision-making tasks
like robotic teleoperation given noisy, high-dimensional command signals (e.g.,
from a brain-computer interface). Recent advances in human-in-the-loop machine
learning enable such systems to improve by interacting with users, but tend to
be limited by the amount of data that they can collect from individual users in
practice. In this paper, we propose a reinforcement learning algorithm to
address this by training an interface to map raw command signals to actions
using a combination of offline pre-training and online fine-tuning. To address
the challenges posed by noisy command signals and sparse rewards, we develop a
novel method for representing and inferring the user's long-term intent for a
given trajectory. We primarily evaluate our method's ability to assist users
who can only communicate through noisy, high-dimensional input channels through
a user study in which 12 participants performed a simulated navigation task by
using their eye gaze to modulate a 128-dimensional command signal from their
webcam. The results show that our method enables successful goal navigation
more often than a baseline directional interface, by learning to denoise user
commands signals and provide shared autonomy assistance. We further evaluate on
a simulated Sawyer pushing task with eye gaze control, and the Lunar Lander
game with simulated user commands, and find that our method improves over
baseline interfaces in these domains as well. Extensive ablation experiments
with simulated user commands empirically motivate each component of our method.
- Abstract(参考訳): アダプティブインタフェースは、ノイズの多い高次元のコマンド信号(例えば脳とコンピュータのインタフェースから)が与えられたロボット遠隔操作のようなシーケンシャルな意思決定タスクを実行するのに役立つ。
近年のヒューマン・イン・ザ・ループ・機械学習の進歩により、ユーザとのインタラクションによってこのようなシステムが改善されるが、実際には個々のユーザから収集できるデータ量によって制限される傾向がある。
本稿では,オフライン事前学習とオンラインファインチューニングの組み合わせを用いて,生のコマンド信号をアクションにマッピングするインタフェースを訓練することで,この問題に対処する強化学習アルゴリズムを提案する。
ノイズの多いコマンド信号やスパース報酬によって生じる課題に対処するため,ユーザの長期意図を与えられた軌道に対して表現し,推測する新しい手法を開発した。
提案手法は, webカメラから128次元の指令信号を変調するために視線を用いて12名の被験者がシミュレートされたナビゲーションタスクを行うユーザスタディを通じて, ノイズの多い高次元入力チャネルを介してのみ通信できるユーザを支援する能力について主に評価する。
その結果,本手法は,ユーザコマンド信号のデノベーションと共有自律支援を学習することで,ベースライン指向インタフェースよりも高い頻度でゴールナビゲーションを成功させることができた。
さらに,アイアイズコントロールによるソーヤー押下作業や,ユーザコマンドをシミュレートしたルナランダーゲームについても評価し,これらの領域におけるベースラインインタフェースの改善についても検討した。
シミュレーションユーザコマンドによる広範囲なアブレーション実験は,提案手法の各成分を経験的に動機づける。
関連論文リスト
- I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - SimCURL: Simple Contrastive User Representation Learning from Command
Sequences [22.92215383896495]
我々は,ラベルのないコマンドシーケンスからユーザ表現を学習する,コントラッシブな自己教師型ディープラーニングフレームワークであるSimCURLを提案する。
我々は、50億以上のコマンドからなる実世界のコマンドシーケンスデータセット上で、我々の手法を訓練し、評価する。
論文 参考訳(メタデータ) (2022-07-29T16:06:03Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。