論文の概要: Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.01855v1
- Date: Thu, 3 Mar 2022 17:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 19:50:41.574812
- Title: Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning
- Title(参考訳): 逆強化学習を改善するための対物関係の推論
- Authors: Michael S. Lee, Henny Admoni, Reid Simmons
- Abstract要約: 人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
- 参考スコア(独自算出の注目度): 5.072077366588174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To collaborate well with robots, we must be able to understand their decision
making. Humans naturally infer other agents' beliefs and desires by reasoning
about their observable behavior in a way that resembles inverse reinforcement
learning (IRL). Thus, robots can convey their beliefs and desires by providing
demonstrations that are informative for a human's IRL. An informative
demonstration is one that differs strongly from the learner's expectations of
what the robot will do given their current understanding of the robot's
decision making. However, standard IRL does not model the learner's existing
expectations, and thus cannot do this counterfactual reasoning. We propose to
incorporate the learner's current understanding of the robot's decision making
into our model of human IRL, so that our robot can select demonstrations that
maximize the human's understanding. We also propose a novel measure for
estimating the difficulty for a human to predict instances of a robot's
behavior in unseen environments. A user study finds that our test difficulty
measure correlates well with human performance and confidence. Interestingly,
considering human beliefs and counterfactuals when selecting demonstrations
decreases human performance on easy tests, but increases performance on
difficult tests, providing insight on how to best utilize such models.
- Abstract(参考訳): ロボットとうまく協力するには、意思決定を理解する必要があります。
人間は自然に他のエージェントの信念や欲求を、逆強化学習(IRL)に似た方法で観察可能な振る舞いを推論することによって推測する。
これにより、ロボットは人間のIRLに有益な実演を提供することで、信念や欲求を伝えることができる。
情報的なデモンストレーションは、ロボットの意思決定に対する現在の理解からロボットが何をするかという学習者の期待とは大きく異なるものである。
しかし、標準IRLは学習者の既存の期待をモデル化していないため、この逆の推論はできない。
ロボットが人間の理解を最大化するためのデモを選択できるように,ロボットの意思決定に関する学習者の現在の理解を人間のirlのモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
ユーザ調査によると、テストの難易度は、人間のパフォーマンスと信頼性とよく相関している。
興味深いことに、デモを選択する際の人間の信念や反事実を考えると、簡単なテストでは人間のパフォーマンスは低下するが、難しいテストではパフォーマンスが向上し、モデルをどのように活用するかについての洞察が得られる。
関連論文リスト
- HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Aligning Robot and Human Representations [50.070982136315784]
ロボット工学における現在の表現学習アプローチは、表現アライメントの目的がいかにうまく達成されているかの観点から研究されるべきである。
問題を数学的に定義し、その鍵となるデシダータを同定し、この形式主義の中に現在の方法を置く。
論文 参考訳(メタデータ) (2023-02-03T18:59:55Z) - Towards Modeling and Influencing the Dynamics of Human Learning [26.961274302321343]
私たちは、ロボットが持つ影響を理解し、それを活用して人々をよりよく支援し、人間のモデルが現実とより迅速に一致できるようにするための一歩を踏み出します。
我々のキーとなる考え方は、人間の学習を、新しい観察によって人間の内部モデルを進化させる非線形力学系としてモデル化することである。
次に、人間の学習力学モデルをロボット計画問題に組み込むことで、ロボットが人間の学習にどう影響するかを定式化する。
論文 参考訳(メタデータ) (2023-01-02T23:59:45Z) - Learning Latent Representations to Co-Adapt to Humans [12.71953776723672]
非定常的な人間はロボット学習者に挑戦しています。
本稿では,ロボットが動的人間と協調して適応できるアルゴリズム形式について紹介する。
論文 参考訳(メタデータ) (2022-12-19T16:19:24Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Dynamically Switching Human Prediction Models for Efficient Planning [32.180808286226075]
ロボットは人間のモデル群にアクセスでき、オンラインで性能計算のトレードオフを評価することができる。
ドライビングシミュレーターを用いた実験では、ロボットが常に最高の人間モデルに匹敵する性能を発揮できることを示した。
論文 参考訳(メタデータ) (2021-03-13T23:48:09Z) - Quantifying Hypothesis Space Misspecification in Learning from
Human-Robot Demonstrations and Physical Corrections [34.53709602861176]
最近の研究は、ロボットがそのようなインプットを使って意図した目的を学習する方法に焦点を当てている。
本研究では,2種類の人間入力から学習する7自由度ロボットマニピュレータについて実験を行った。
論文 参考訳(メタデータ) (2020-02-03T18:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。