論文の概要: Accounting for Human Learning when Inferring Human Preferences
- arxiv url: http://arxiv.org/abs/2011.05596v2
- Date: Tue, 1 Dec 2020 07:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 23:05:14.603011
- Title: Accounting for Human Learning when Inferring Human Preferences
- Title(参考訳): 好みを推測する際の人間学習の会計
- Authors: Harry Giles, Lawrence Chan
- Abstract要約: 本研究では,人間を学習としてモデル化することにより,定常性の仮定を緩和する結果について検討する。
驚くべきことに、いくつかの小さな例では、これが人間が静止している場合よりも優れた推論につながることがわかっています。
さらに, 誤識別が推論に悪影響を及ぼす証拠が発見され, 人間の学習のモデル化が重要であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL) is a common technique for inferring
human preferences from data. Standard IRL techniques tend to assume that the
human demonstrator is stationary, that is that their policy $\pi$ doesn't
change over time. In practice, humans interacting with a novel environment or
performing well on a novel task will change their demonstrations as they learn
more about the environment or task. We investigate the consequences of relaxing
this assumption of stationarity, in particular by modelling the human as
learning. Surprisingly, we find in some small examples that this can lead to
better inference than if the human was stationary. That is, by observing a
demonstrator who is themselves learning, a machine can infer more than by
observing a demonstrator who is noisily rational. In addition, we find evidence
that misspecification can lead to poor inference, suggesting that modelling
human learning is important, especially when the human is facing an unfamiliar
environment.
- Abstract(参考訳): 逆強化学習(IRL)は、データから人間の好みを推測する一般的な手法である。
標準的なIRL技術は、人間のデモレーターが静止していると仮定する傾向があり、つまり、そのポリシー$\pi$は時間が経つにつれて変化しない。
実際には、人間が新しい環境と対話したり、新しいタスクでうまく働くと、環境やタスクについてもっと学ぶと、デモが変わる。
本研究では,この仮定を緩和した結果,特に人間を学習としてモデル化することによって検討する。
驚くべきことに、いくつかの小さな例では、人間が静止している場合よりも、これはより良い推論につながる可能性がある。
すなわち、自ら学習しているデモ参加者を観察することで、機械は、不当に合理的なデモ参加者を観察することによってより多くの推測を行うことができる。
さらに,不特定化が不適切な推論につながるという証拠が得られ,特に不慣れな環境に直面している場合には,人間学習のモデル化が重要であることが示唆された。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Diffusing in Someone Else's Shoes: Robotic Perspective Taking with Diffusion [16.26334759935617]
ヒューマノイドロボットは、人間から学ぶことによって、人間の形状と類似性から恩恵を受けることができる。
第三者の視点から見たデモから精神的に移行できることは、人間にとってこの能力の基本である。
本研究では,ロボットが直接第三者によるデモンストレーションから学習し,一対一の視点を生成できる新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-04-11T13:30:03Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Modeling Human Behavior Part I -- Learning and Belief Approaches [0.0]
探索とフィードバックを通じて行動のモデルや方針を学ぶ手法に焦点を当てる。
次世代の自律的適応システムは、主にAIエージェントと人間がチームとして一緒に働く。
論文 参考訳(メタデータ) (2022-05-13T07:33:49Z) - Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-03-03T17:06:37Z) - Can Humans Do Less-Than-One-Shot Learning? [12.387676601792897]
極端にデータスカースな環境で分類を検証できる新しい実験パラダイムを導入する。
このパラダイムを用いて行った実験は、人々がそのような環境で学習できることを明らかにする。
応答における機械学習可能なパターンは、人々がこの種のデータスカース問題に対処するために効果的な帰納的バイアスを持つ可能性があることを示している。
論文 参考訳(メタデータ) (2022-02-09T19:00:07Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Feature Expansive Reward Learning: Rethinking Human Input [31.413656752926208]
そこで我々は,ロボットが教えている特徴が表現されていない状態からロボットを誘導する新しいタイプの人間入力を紹介した。
本稿では,その特徴を生の状態空間から学習し,報酬関数に組み込むアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:59:34Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。