論文の概要: Expressing Diverse Human Driving Behavior with Probabilistic Rewards and
Online Inference
- arxiv url: http://arxiv.org/abs/2008.08812v2
- Date: Fri, 21 Aug 2020 01:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 04:00:32.602334
- Title: Expressing Diverse Human Driving Behavior with Probabilistic Rewards and
Online Inference
- Title(参考訳): 確率的リワードとオンライン推論による異種運転行動の表現
- Authors: Liting Sun, Zheng Wu, Hengbo Ma, Masayoshi Tomizuka
- Abstract要約: コスト/リワード学習(英: Cost/reward learning)は、人間の振る舞いを学習し、表現するための効率的な方法である。
本稿では,連続領域におけるコスト関数の分布を直接学習する確率的IRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.05002276323983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In human-robot interaction (HRI) systems, such as autonomous vehicles,
understanding and representing human behavior are important. Human behavior is
naturally rich and diverse. Cost/reward learning, as an efficient way to learn
and represent human behavior, has been successfully applied in many domains.
Most of traditional inverse reinforcement learning (IRL) algorithms, however,
cannot adequately capture the diversity of human behavior since they assume
that all behavior in a given dataset is generated by a single cost function.In
this paper, we propose a probabilistic IRL framework that directly learns a
distribution of cost functions in continuous domain. Evaluations on both
synthetic data and real human driving data are conducted. Both the quantitative
and subjective results show that our proposed framework can better express
diverse human driving behaviors, as well as extracting different driving styles
that match what human participants interpret in our user study.
- Abstract(参考訳): 自動運転車のような人間とロボットの相互作用(hri)システムでは、人間の行動の理解と表現が重要である。
人間の行動は自然に豊かで多様である。
コスト/リワード学習は、人間の行動を学び、表現する効率的な方法として、多くの領域でうまく適用されています。
しかし、従来の逆強化学習(irl)アルゴリズムのほとんどは、与えられたデータセット内のすべての動作が単一のコスト関数によって生成されると仮定しているため、人間の行動の多様性を適切に捉えることができない。
合成データと実際の運転データの両方について評価を行う。
定量的および主観的評価の結果から,提案手法は,多様な運転行動の表現や,ユーザ研究における人間の解釈に適合する異なる運転スタイルを抽出できることが示唆された。
関連論文リスト
- Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z) - Learning from humans: combining imitation and deep reinforcement
learning to accomplish human-level performance on a virtual foraging task [6.263481844384228]
本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。
オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。
論文 参考訳(メタデータ) (2022-03-11T20:52:30Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Drivers' Manoeuvre Modelling and Prediction for Safe HRI [0.0]
心の理論は、ロボット工学や、最近は自律車や半自律車のために広く研究されている。
本研究では、人間の動き、車の状態、人間の入力からのデータを組み合わせることで、行動の前に人間の意図を予測する方法について検討した。
論文 参考訳(メタデータ) (2021-06-03T10:07:55Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。