論文の概要: Learning Latent Representations to Co-Adapt to Humans
- arxiv url: http://arxiv.org/abs/2212.09586v3
- Date: Sat, 19 Aug 2023 23:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 02:06:24.945186
- Title: Learning Latent Representations to Co-Adapt to Humans
- Title(参考訳): 人間に適応した潜在表現の学習
- Authors: Sagar Parekh, Dylan P. Losey
- Abstract要約: 非定常的な人間はロボット学習者に挑戦しています。
本稿では,ロボットが動的人間と協調して適応できるアルゴリズム形式について紹介する。
- 参考スコア(独自算出の注目度): 12.71953776723672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When robots interact with humans in homes, roads, or factories the human's
behavior often changes in response to the robot. Non-stationary humans are
challenging for robot learners: actions the robot has learned to coordinate
with the original human may fail after the human adapts to the robot. In this
paper we introduce an algorithmic formalism that enables robots (i.e., ego
agents) to co-adapt alongside dynamic humans (i.e., other agents) using only
the robot's low-level states, actions, and rewards. A core challenge is that
humans not only react to the robot's behavior, but the way in which humans
react inevitably changes both over time and between users. To deal with this
challenge, our insight is that -- instead of building an exact model of the
human -- robots can learn and reason over high-level representations of the
human's policy and policy dynamics. Applying this insight we develop RILI:
Robustly Influencing Latent Intent. RILI first embeds low-level robot
observations into predictions of the human's latent strategy and strategy
dynamics. Next, RILI harnesses these predictions to select actions that
influence the adaptive human towards advantageous, high reward behaviors over
repeated interactions. We demonstrate that -- given RILI's measured performance
with users sampled from an underlying distribution -- we can probabilistically
bound RILI's expected performance across new humans sampled from the same
distribution. Our simulated experiments compare RILI to state-of-the-art
representation and reinforcement learning baselines, and show that RILI better
learns to coordinate with imperfect, noisy, and time-varying agents. Finally,
we conduct two user studies where RILI co-adapts alongside actual humans in a
game of tag and a tower-building task. See videos of our user studies here:
https://youtu.be/WYGO5amDXbQ
- Abstract(参考訳): ロボットが家や道路、工場で人間と対話するとき、人間の行動はロボットに反応して変化する。
非定常的な人間はロボット学習者に挑戦している。ロボットが学習した行動は、人間がロボットに適応した後で失敗する可能性がある。
本稿では,ロボット(egoエージェント)が動的人間(すなわち他のエージェント)と協調して,ロボットの低レベル状態,行動,報酬のみを用いて協調的に適応できるアルゴリズム形式を提案する。
最大の課題は、人間がロボットの行動に反応するだけでなく、人間の反応が時間とともにユーザーの間で必然的に変化することだ。
この課題に対処するために、私たちの洞察では、人間の正確なモデルを構築する代わりに、ロボットは人間のポリシーとポリシーのダイナミクスの高レベルな表現を学び、推論することができる。
この洞察を応用して、RILI:Robustly Influencing Latent Intentを開発します。
RILIはまず、人間の潜在戦略と戦略ダイナミクスの予測に、低レベルのロボット観測を組み込む。
次に、riliはこれらの予測を利用して適応的人間に影響を与える行動を、反復的な相互作用よりも有利で高い報酬行動へと選択する。
基盤となるディストリビューションからサンプリングされたユーザによるriliの計測パフォーマンスを考えると、同じディストリビューションからサンプリングされた新しい人間に対して、riliが期待するパフォーマンスを確率的にバインドできることを実証します。
我々の模擬実験はRILIと最先端の表現と強化学習のベースラインを比較し、RILIが不完全、ノイズ、時間変化のエージェントと協調することをより良く学習していることを示す。
最後に、RILIが実際の人間と協調して、タグゲームとタワー構築タスクを行う2つのユーザー研究を行う。
ユーザー・スタディのビデオはこちら。https://youtu.be/WYGO5amDXbQ
関連論文リスト
- HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots [119.55240471433302]
Habitat 3.0は、家庭環境における協調ロボットタスクを研究するためのシミュレーションプラットフォームである。
複雑な変形可能な体と外観と運動の多様性をモデル化する際の課題に対処する。
Human-in-the-loopインフラストラクチャは、マウス/キーボードまたはVRインターフェースを介してシミュレーションされたロボットとの実際のヒューマンインタラクションを可能にする。
論文 参考訳(メタデータ) (2023-10-19T17:29:17Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - RILI: Robustly Influencing Latent Intent [7.025418443146435]
変化するパートナーのダイナミクスに影響を与えることを学ぶ頑健なアプローチを提案する。
提案手法は, 対話の繰り返しを通じて, パートナーの集合を訓練する。
そして、ロボットが元のパートナーと学んだ軌跡をサンプリングすることで、新しいパートナーに迅速に適応する。
論文 参考訳(メタデータ) (2022-03-23T19:55:49Z) - Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-03-03T17:06:37Z) - Physical Interaction as Communication: Learning Robot Objectives Online
from Human Corrections [33.807697939765205]
物理的人間とロボットの相互作用(pHRI)は、しばしば故意に行われます。
そこで本論文では,pHRIが意図的であれば,ロボットはインタラクションを活用して,人間に許された後でも,現在のタスクの残りを完了させる方法を学ぶことができる,という情報も有益である,と論じる。
以上の結果から,pHRIからの学習がタスクパフォーマンスの向上と満足度の向上につながることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T02:25:39Z) - Dynamically Switching Human Prediction Models for Efficient Planning [32.180808286226075]
ロボットは人間のモデル群にアクセスでき、オンラインで性能計算のトレードオフを評価することができる。
ドライビングシミュレーターを用いた実験では、ロボットが常に最高の人間モデルに匹敵する性能を発揮できることを示した。
論文 参考訳(メタデータ) (2021-03-13T23:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。