論文の概要: Learning on the Job: Long-Term Behavioural Adaptation in Human-Robot
Interactions
- arxiv url: http://arxiv.org/abs/2203.10518v1
- Date: Sun, 20 Mar 2022 10:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 07:02:05.315012
- Title: Learning on the Job: Long-Term Behavioural Adaptation in Human-Robot
Interactions
- Title(参考訳): 職業の学習:人間-ロボットインタラクションにおける長期行動適応
- Authors: Francesco Del Duchetto and Marc Hanheide
- Abstract要約: 振る舞いプランニングは強化学習フレームワークに組み込まれている。
訓練されたエンゲージメントモデルがリアルタイムに報酬関数を生成する。
このアプローチをリンカーンの公共博物館(英国)で試す。
- 参考スコア(独自算出の注目度): 4.5459332718995205
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we propose a framework for allowing autonomous robots deployed
for extended periods of time in public spaces to adapt their own behaviour
online from user interactions. The robot behaviour planning is embedded in a
Reinforcement Learning (RL) framework, where the objective is maximising the
level of overall user engagement during the interactions. We use the
Upper-Confidence-Bound Value-Iteration (UCBVI) algorithm, which gives a helpful
way of managing the exploration-exploitation trade-off for real-time
interactions. An engagement model trained end-to-end generates the reward
function in real-time during policy execution. We test this approach in a
public museum in Lincoln (UK), where the robot is deployed as a tour guide for
the visitors. Results show that after a couple of months of exploration, the
robot policy learned to maintain the engagement of users for longer, with an
increase of 22.8% over the initial static policy in the number of items visited
during the tour and a 30% increase in the probability of completing the tour.
This work is a promising step toward behavioural adaptation in long-term
scenarios for robotics applications in social settings.
- Abstract(参考訳): 本研究では,公共空間に長時間展開する自律ロボットが,ユーザインタラクションから自身の行動にオンラインで適応するためのフレームワークを提案する。
ロボットの行動計画(robot behavior planning)は強化学習(rl)フレームワークに埋め込まれている。
実時間インタラクションのための探索・探索トレードオフを管理する上で有用な方法として,上信頼境界値イテレーションアルゴリズム(UCBVI)を用いる。
エンドツーエンドで訓練されたエンゲージメントモデルは、ポリシー実行中にリアルタイムで報酬関数を生成する。
我々はこのアプローチをリンカーンの公共博物館でテストし、訪問客のためのツアーガイドとしてロボットを配置した。
その結果、数ヶ月の探索を経て、ロボットポリシーは、ツアー中に訪問したアイテム数の最初の静的ポリシーよりも22.8%増加し、ツアーを完了する確率は30%上昇した。
本研究は,ロボット工学における長期シナリオにおける行動適応への有望な一歩である。
関連論文リスト
- Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Motion Prediction with Gaussian Processes for Safe Human-Robot Interaction in Virtual Environments [1.677718351174347]
衝突事故のリスクを最小限に抑えるため、共同作業型ロボットは人間との共同作業が安全でなければならない。
本研究の目的は,協調作業ロボットの安全性を向上しつつ,協調作業ロボットの効率を向上させることである。
論文 参考訳(メタデータ) (2024-05-15T05:51:41Z) - Robot Interaction Behavior Generation based on Social Motion Forecasting for Human-Robot Interaction [9.806227900768926]
本稿では,共有ロボット表現空間における社会的動き予測のモデル化を提案する。
ECHOは上記の共有空間で活動し、社会的シナリオで遭遇したエージェントの将来の動きを予測する。
我々は,多対人動作予測タスクにおけるモデルの評価を行い,最先端の性能を大きなマージンで獲得する。
論文 参考訳(メタデータ) (2024-02-07T11:37:14Z) - Learning Multimodal Latent Dynamics for Human-Robot Interaction [19.803547418450236]
本稿では,ヒト-ヒトインタラクション(HHI)から協調型人間-ロボットインタラクション(HRI)を学習する方法を提案する。
本研究では,隠れマルコフモデル(HMM)を変分オートエンコーダの潜在空間として用いて,相互作用するエージェントの結合分布をモデル化するハイブリッドアプローチを考案する。
ユーザが私たちのメソッドを,より人間らしく,タイムリーで,正確なものと認識し,他のベースラインよりも高い優先度でメソッドをランク付けすることが分かりました。
論文 参考訳(メタデータ) (2023-11-27T23:56:59Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Multi-subgoal Robot Navigation in Crowds with History Information and
Interactions [0.0]
深部強化学習に基づくマルチサブゴアルロボットナビゲーション手法を提案する。
作業中に履歴情報やインタラクションを導入することで,ロボットの次のポジションポイントを計画する。
実験により,本手法は成功率と衝突速度の両方の観点から,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-05-04T11:24:49Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - Intention Aware Robot Crowd Navigation with Attention-Based Interaction
Graph [3.8461692052415137]
本研究では,高密度で対話的な群集における安全かつ意図に配慮したロボットナビゲーションの課題について検討する。
本稿では,エージェント間の異種相互作用を捕捉するアテンション機構を備えた新しいグラフニューラルネットワークを提案する。
提案手法は,群集ナビゲーションのシナリオにおいて,優れたナビゲーション性能と非侵襲性をロボットが実現できることを実証する。
論文 参考訳(メタデータ) (2022-03-03T16:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。