論文の概要: Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data
- arxiv url: http://arxiv.org/abs/2103.04289v1
- Date: Sun, 7 Mar 2021 07:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:25:56.636706
- Title: Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data
- Title(参考訳): マルチエージェントゲームにおける潜在知能レベル推定による人間報酬の学習 : 運転データへの適用による極小アプローチ
- Authors: Ran Tian, Masayoshi Tomizuka, and Liting Sun
- Abstract要約: 我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.750834997334664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward function, as an incentive representation that recognizes humans'
agency and rationalizes humans' actions, is particularly appealing for modeling
human behavior in human-robot interaction. Inverse Reinforcement Learning is an
effective way to retrieve reward functions from demonstrations. However, it has
always been challenging when applying it to multi-agent settings since the
mutual influence between agents has to be appropriately modeled. To tackle this
challenge, previous work either exploits equilibrium solution concepts by
assuming humans as perfectly rational optimizers with unbounded intelligence or
pre-assigns humans' interaction strategies a priori. In this work, we advocate
that humans are bounded rational and have different intelligence levels when
reasoning about others' decision-making process, and such an inherent and
latent characteristic should be accounted for in reward learning algorithms.
Hence, we exploit such insights from Theory-of-Mind and propose a new
multi-agent Inverse Reinforcement Learning framework that reasons about humans'
latent intelligence levels during learning. We validate our approach in both
zero-sum and general-sum games with synthetic agents and illustrate a practical
application to learning human drivers' reward functions from real driving data.
We compare our approach with two baseline algorithms. The results show that by
reasoning about humans' latent intelligence levels, the proposed approach has
more flexibility and capability to retrieve reward functions that explain
humans' driving behaviors better.
- Abstract(参考訳): リワード機能は、人間のエージェントを認識し、人間の行動を合理化するインセンティブとして、特に人間とロボットの相互作用における人間の行動のモデル化に魅力がある。
逆強化学習は、デモから報酬関数を取得する効果的な方法です。
しかし,エージェント間の相互影響を適切にモデル化する必要があるため,マルチエージェント設定に適用することは常に困難である。
この課題に取り組むために、以前の研究では、人間を無限の知性を持つ完全合理的なオプティマイザと仮定することによって平衡解の概念を利用するか、人間の相互作用戦略を優先順位付けする。
本研究では、他者の意思決定過程を推論するとき、人間は理性に縛られ、異なる知能レベルを持つことを提唱し、このような固有的および潜在的特性は報酬学習アルゴリズムにおいて考慮されるべきである。
そこで我々は,このような知見を心の理論から活用し,学習中の人間の潜在知性レベルを理由とする,新しい多エージェント逆強化学習フレームワークを提案する。
ゼロサムとジェネラルサムの両方のゲームにおけるアプローチを合成エージェントで検証し、実際の運転データから人間のドライバーの報酬機能を学ぶための実用的なアプリケーションを示しています。
アプローチを2つのベースラインアルゴリズムと比較する。
その結果、人間の潜伏した知能レベルを推察することで、提案手法は人間の運転行動をよりよく説明できる報酬関数をより柔軟かつ高めることができることがわかった。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - The Role of Higher-Order Cognitive Models in Active Learning [8.847360368647752]
我々は、人間のフィードバックのためのアクティブな学習のための新しいパラダイムを提唱する。
エージェントのレベルが上がると、アクティブな学習システムと教師との合理的コミュニケーションの質的に異なる形態がもたらされるかについて議論する。
論文 参考訳(メタデータ) (2024-01-09T07:39:36Z) - Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。
提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文 参考訳(メタデータ) (2023-08-21T22:40:36Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - A New Framework for Query Efficient Active Imitation Learning [5.167794607251493]
彼の好みと目的に基づいて、報酬と安全でない状態を知っている人間の専門家がいますが、人間の専門家に問い合わせるのは高価です。
本稿では,ユーザの報酬関数のモデルと効率的なクエリを積極的かつインタラクティブに学習する,模倣学習(IL)アルゴリズムを提案する。
提案手法は、状態ベース2次元ナビゲーションタスク、ロボット制御タスク、画像ベースビデオゲームに基づいて、シミュレーションされた人間を用いて評価する。
論文 参考訳(メタデータ) (2019-12-30T18:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。