論文の概要: Learning on the Job: Long-Term Behavioural Adaptation in Human-Robot
Interactions
- arxiv url: http://arxiv.org/abs/2203.10518v1
- Date: Sun, 20 Mar 2022 10:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 07:02:05.315012
- Title: Learning on the Job: Long-Term Behavioural Adaptation in Human-Robot
Interactions
- Title(参考訳): 職業の学習:人間-ロボットインタラクションにおける長期行動適応
- Authors: Francesco Del Duchetto and Marc Hanheide
- Abstract要約: 振る舞いプランニングは強化学習フレームワークに組み込まれている。
訓練されたエンゲージメントモデルがリアルタイムに報酬関数を生成する。
このアプローチをリンカーンの公共博物館(英国)で試す。
- 参考スコア(独自算出の注目度): 4.5459332718995205
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we propose a framework for allowing autonomous robots deployed
for extended periods of time in public spaces to adapt their own behaviour
online from user interactions. The robot behaviour planning is embedded in a
Reinforcement Learning (RL) framework, where the objective is maximising the
level of overall user engagement during the interactions. We use the
Upper-Confidence-Bound Value-Iteration (UCBVI) algorithm, which gives a helpful
way of managing the exploration-exploitation trade-off for real-time
interactions. An engagement model trained end-to-end generates the reward
function in real-time during policy execution. We test this approach in a
public museum in Lincoln (UK), where the robot is deployed as a tour guide for
the visitors. Results show that after a couple of months of exploration, the
robot policy learned to maintain the engagement of users for longer, with an
increase of 22.8% over the initial static policy in the number of items visited
during the tour and a 30% increase in the probability of completing the tour.
This work is a promising step toward behavioural adaptation in long-term
scenarios for robotics applications in social settings.
- Abstract(参考訳): 本研究では,公共空間に長時間展開する自律ロボットが,ユーザインタラクションから自身の行動にオンラインで適応するためのフレームワークを提案する。
ロボットの行動計画(robot behavior planning)は強化学習(rl)フレームワークに埋め込まれている。
実時間インタラクションのための探索・探索トレードオフを管理する上で有用な方法として,上信頼境界値イテレーションアルゴリズム(UCBVI)を用いる。
エンドツーエンドで訓練されたエンゲージメントモデルは、ポリシー実行中にリアルタイムで報酬関数を生成する。
我々はこのアプローチをリンカーンの公共博物館でテストし、訪問客のためのツアーガイドとしてロボットを配置した。
その結果、数ヶ月の探索を経て、ロボットポリシーは、ツアー中に訪問したアイテム数の最初の静的ポリシーよりも22.8%増加し、ツアーを完了する確率は30%上昇した。
本研究は,ロボット工学における長期シナリオにおける行動適応への有望な一歩である。
関連論文リスト
- Learning Multimodal Latent Dynamics for Human-Robot Interaction [19.803547418450236]
本稿では,ヒト-ヒトインタラクション(HHI)から協調型人間-ロボットインタラクション(HRI)を学習する方法を提案する。
本研究では,隠れマルコフモデル(HMM)を変分オートエンコーダの潜在空間として用いて,相互作用するエージェントの結合分布をモデル化するハイブリッドアプローチを考案する。
ユーザが私たちのメソッドを,より人間らしく,タイムリーで,正確なものと認識し,他のベースラインよりも高い優先度でメソッドをランク付けすることが分かりました。
論文 参考訳(メタデータ) (2023-11-27T23:56:59Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Multi-subgoal Robot Navigation in Crowds with History Information and
Interactions [0.0]
深部強化学習に基づくマルチサブゴアルロボットナビゲーション手法を提案する。
作業中に履歴情報やインタラクションを導入することで,ロボットの次のポジションポイントを計画する。
実験により,本手法は成功率と衝突速度の両方の観点から,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-05-04T11:24:49Z) - Off-Policy Evaluation with Online Adaptation for Robot Exploration in
Challenging Environments [6.4617907823964345]
本稿では、状態値関数によって測定された「良い」状態がどのようにあるかを学習し、ロボット探査のガイダンスを提供する。
実世界のデータに関するオフラインのモンテカルロトレーニングと、トレーニングされた値推定器を最適化するために時間差分(TD)オンライン適応を実行する。
以上の結果から,ロボットが将来の状態を予測し,ロボット探索の指針となることが示唆された。
論文 参考訳(メタデータ) (2022-04-07T00:46:57Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - Intention Aware Robot Crowd Navigation with Attention-Based Interaction
Graph [3.8461692052415137]
本研究では,高密度で対話的な群集における安全かつ意図に配慮したロボットナビゲーションの課題について検討する。
本稿では,エージェント間の異種相互作用を捕捉するアテンション機構を備えた新しいグラフニューラルネットワークを提案する。
提案手法は,群集ナビゲーションのシナリオにおいて,優れたナビゲーション性能と非侵襲性をロボットが実現できることを実証する。
論文 参考訳(メタデータ) (2022-03-03T16:26:36Z) - Show Me What You Can Do: Capability Calibration on Reachable Workspace
for Human-Robot Collaboration [83.4081612443128]
本稿では,REMPを用いた短時間キャリブレーションにより,ロボットが到達できると考える非専門家と地道とのギャップを効果的に埋めることができることを示す。
この校正手順は,ユーザ認識の向上だけでなく,人間とロボットのコラボレーションの効率化にも寄与することを示す。
論文 参考訳(メタデータ) (2021-03-06T09:14:30Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Social Navigation with Human Empowerment driven Deep Reinforcement
Learning [20.815007485176615]
次世代のモバイルロボットは、人間の協力者によって受け入れられるために、社会的に準拠する必要がある。
本稿では,古典的acfRLのアプローチを超えて,エンパワーメントを用いた本質的なモチベーションをエージェントに提供する。
我々のアプローチは、人間との距離を最小化し、それによって、効率的に目標に向かって移動しながら、人間の移動時間を短縮するので、人間に肯定的な影響を与える。
論文 参考訳(メタデータ) (2020-03-18T11:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。