論文の概要: Continually Learned Pavlovian Signalling Without Forgetting for
Human-in-the-Loop Robotic Control
- arxiv url: http://arxiv.org/abs/2305.14365v1
- Date: Tue, 16 May 2023 15:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-28 04:50:29.922663
- Title: Continually Learned Pavlovian Signalling Without Forgetting for
Human-in-the-Loop Robotic Control
- Title(参考訳): 対人ロボット制御のための疑わしいパブロヴィアン信号の連続学習
- Authors: Adam S. R. Parker, Michael R. Dawson, and Patrick M. Pilarski
- Abstract要約: パヴロヴィアン・シグナリング(Pavlovian signalling)は、義肢のフィードバックを改善するためのアプローチである。
ひとつの課題は、ユーザがデリバリされたフィードバックでうまく行動し始めると、これまで学んだ予測を忘れてしまうことだ。
この研究は、人工装具から学習した予測フィードバックを提供するという課題に対する新たな洞察に貢献する。
- 参考スコア(独自算出の注目度): 0.8258451067861933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial limbs are sophisticated devices to assist people with tasks of
daily living. Despite advanced robotic prostheses demonstrating similar motion
capabilities to biological limbs, users report them difficult and non-intuitive
to use. Providing more effective feedback from the device to the user has
therefore become a topic of increased interest. In particular, prediction
learning methods from the field of reinforcement learning -- specifically, an
approach termed Pavlovian signalling -- have been proposed as one approach for
better modulating feedback in prostheses since they can adapt during continuous
use. One challenge identified in these learning methods is that they can forget
previously learned predictions when a user begins to successfully act upon
delivered feedback. The present work directly addresses this challenge,
contributing new evidence on the impact of algorithmic choices, such as on- or
off-policy methods and representation choices, on the Pavlovian signalling from
a machine to a user during their control of a robotic arm. Two conditions of
algorithmic differences were studied using different scenarios of controlling a
robotic arm: an automated motion system and human participant piloting.
Contrary to expectations, off-policy learning did not provide the expected
solution to the forgetting problem. We instead identified beneficial properties
of a look-ahead state representation that made existing approaches able to
learn (and not forget) predictions in support of Pavlovian signalling. This
work therefore contributes new insight into the challenges of providing learned
predictive feedback from a prosthetic device, and demonstrates avenues for more
dynamic signalling in future human-machine interactions.
- Abstract(参考訳): 人工肢は、日常生活に携わる人々を助ける高度なデバイスである。
高度なロボット義肢は生物学的手足に類似した動作能力を示すが、ユーザーはそれらを困難で直感的ではないと報告する。
デバイスからユーザへのより効果的なフィードバックを提供することは、関心の高まりのトピックになっている。
特に、強化学習(特にパブロフ信号と呼ばれるアプローチ)の分野からの予測学習法は、連続使用中に適応できるため、補綴物のフィードバックをより良く調整するためのアプローチとして提案されている。
これらの学習手法で特定される課題の1つは、ユーザが提供されたフィードバックでうまく行動し始めると、事前に学習した予測を忘れてしまうことだ。
本研究は,ロボットアームの制御において,マシンからユーザへのパブロフ信号に対する,オン・あるいはオフ・ポリシー・メソッドや表現選択などのアルゴリズム選択の影響に関する新たな証拠を提示する。
ロボットアームを制御する2つのシナリオを用いて、アルゴリズムの違いの2つの条件について研究した。
期待に反して、非政治的な学習は、忘れる問題に対する期待された解決策を提供しなかった。
代わりに、既存のアプローチがパブロフ信号を支援するために(そして忘れない)予測を学べるようにしたルックアヘッド状態表現の有益な性質を特定した。
この研究は、人工装具から学習した予測フィードバックを提供することの課題に対する新たな洞察をもたらし、将来の人間と機械の相互作用においてよりダイナミックなシグナル伝達の道を示す。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z) - Learning to Control Complex Robots Using High-Dimensional Interfaces:
Preliminary Insights [22.719193009150867]
7自由度ロボットアームを制御するための入力として、モーションセンサーで捉えた上半身の限られた動きを探索する。
密度の高いセンサ信号でさえ、信頼性の高い高次元ロボット制御に必要な健全な情報や独立性を欠いている可能性がある。
論文 参考訳(メタデータ) (2021-10-09T23:38:22Z) - Improving Human Motion Prediction Through Continual Learning [2.720960618356385]
人間の動作予測は、より緊密な人間とロボットのコラボレーションを可能にするために不可欠な要素である。
人間の運動の変動は、人間のサイズの違いによる骨格レベルと、個々の動きの慣用性による運動レベルの両方で複合される。
本稿では、エンドツーエンドのトレーニングを可能にすると同時に、微調整の柔軟性も備えたモジュール型シーケンス学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-01T15:34:41Z) - Social NCE: Contrastive Learning of Socially-aware Motion
Representations [87.82126838588279]
実験結果から, 提案手法は最近の軌道予測, 行動クローニング, 強化学習アルゴリズムの衝突速度を劇的に低減することがわかった。
本手法は,ニューラルネットワークの設計に関する仮定をほとんど示さないため,神経運動モデルのロバスト性を促進する汎用的手法として使用できる。
論文 参考訳(メタデータ) (2020-12-21T22:25:06Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Robotic self-representation improves manipulation skills and transfer
learning [14.863872352905629]
我々は,多感覚情報から,身体スキーマと周辺空間の表現を符号化する双方向行動効果関連を学習するモデルを開発する。
本手法は,ノイズ条件下での学習に基づく問題解決を著しく安定化し,ロボット操作スキルの伝達学習を改善することを実証する。
論文 参考訳(メタデータ) (2020-11-13T16:04:58Z) - Semi-supervised Learning From Demonstration Through Program Synthesis:
An Inspection Robot Case Study [0.0]
本稿では,実証実験から解釈可能なモデルと検証可能なモデルを学習できるハイブリッドセミ教師システムを提案する。
本システムは、逐次重要サンプリングを用いて没入型デモンストレーションから学習することで、コントローラプログラムを誘導する。
我々は、無人地上車両が特定の順序で環境の異なる領域を検査しなければならない検査シナリオからハイブリッドシステムの学習に成功した。
論文 参考訳(メタデータ) (2020-07-23T01:32:21Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。