論文の概要: LESS is More: Rethinking Probabilistic Models of Human Behavior
- arxiv url: http://arxiv.org/abs/2001.04465v1
- Date: Mon, 13 Jan 2020 18:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 22:20:41.068009
- Title: LESS is More: Rethinking Probabilistic Models of Human Behavior
- Title(参考訳): LESSはもっと:人間の行動の確率論的モデルを再考する
- Authors: Andreea Bobu, Dexter R.R. Scobee, Jaime F. Fisac, S. Shankar Sastry,
Anca D. Dragan
- Abstract要約: ボルツマンノイズレーショナル決定モデルは、人々は報酬関数を概ね最適化していると仮定する。
人間の軌道は連続した空間にあり、報酬関数に影響を及ぼす連続的な価値ある特徴を持つ。
報酬のみでなく、軌道間の距離を明示的に考慮するモデルを導入する。
- 参考スコア(独自算出の注目度): 36.020541093946925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots need models of human behavior for both inferring human goals and
preferences, and predicting what people will do. A common model is the
Boltzmann noisily-rational decision model, which assumes people approximately
optimize a reward function and choose trajectories in proportion to their
exponentiated reward. While this model has been successful in a variety of
robotics domains, its roots lie in econometrics, and in modeling decisions
among different discrete options, each with its own utility or reward. In
contrast, human trajectories lie in a continuous space, with continuous-valued
features that influence the reward function. We propose that it is time to
rethink the Boltzmann model, and design it from the ground up to operate over
such trajectory spaces. We introduce a model that explicitly accounts for
distances between trajectories, rather than only their rewards. Rather than
each trajectory affecting the decision independently, similar trajectories now
affect the decision together. We start by showing that our model better
explains human behavior in a user study. We then analyze the implications this
has for robot inference, first in toy environments where we have ground truth
and find more accurate inference, and finally for a 7DOF robot arm learning
from user demonstrations.
- Abstract(参考訳): ロボットは、人間の目標と好みを推測し、人々が何をするかを予測するために、人間の行動のモデルが必要です。
一般的なモデルはボルツマンノイズレーショナル決定モデル(Boltzmann noisily-rational decision model)であり、報酬関数を概ね最適化し、指数付き報酬に比例して軌道を選択する。
このモデルは様々なロボティクス領域で成功しているが、そのルーツは計量学と、それぞれ独自のユーティリティや報酬を持つ異なる選択肢間の決定をモデル化することにある。
対照的に、人間の軌道は報酬関数に影響を与える連続的な価値を持つ連続した空間にある。
ボルツマンモデルを再考し、それをゼロから設計し、そのような軌道空間上で操作する時が来たと提案する。
報酬のみでなく、軌道間の距離を明示的に考慮するモデルを導入する。
それぞれの軌道が独立して決定に影響を及ぼすのではなく、同様の軌道が共に決定に影響を及ぼす。
まず、モデルがユーザー研究で人間の行動をより良く説明できることを示します。
次に、ロボットによる推論がもたらす意味を分析し、まずは、真実を理解してより正確な推論を行うおもちゃ環境で、最後にユーザーデモから学習する7DOFロボットアームについて分析する。
関連論文リスト
- Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Learning Latent Representations to Co-Adapt to Humans [12.71953776723672]
非定常的な人間はロボット学習者に挑戦しています。
本稿では,ロボットが動的人間と協調して適応できるアルゴリズム形式について紹介する。
論文 参考訳(メタデータ) (2022-12-19T16:19:24Z) - On the Sensitivity of Reward Inference to Misspecified Human Models [27.94055657571769]
人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。
これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか?
提案手法は, 推定報酬において, 任意に大きな誤差を生じさせるような, 行動の小さな逆バイアスを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-09T08:16:20Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - Dynamically Switching Human Prediction Models for Efficient Planning [32.180808286226075]
ロボットは人間のモデル群にアクセスでき、オンラインで性能計算のトレードオフを評価することができる。
ドライビングシミュレーターを用いた実験では、ロボットが常に最高の人間モデルに匹敵する性能を発揮できることを示した。
論文 参考訳(メタデータ) (2021-03-13T23:48:09Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。