論文の概要: A Socially Aware Reinforcement Learning Agent for The Single Track Road
Problem
- arxiv url: http://arxiv.org/abs/2109.05486v1
- Date: Sun, 12 Sep 2021 11:05:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:17:28.037272
- Title: A Socially Aware Reinforcement Learning Agent for The Single Track Road
Problem
- Title(参考訳): シングルトラック道路問題に対する社会的に意識された強化学習エージェント
- Authors: Ido Shapira and Amos Azaria
- Abstract要約: 我々は1つのエージェントが人間であるシナリオに焦点を当て、もう1つは自律的なエージェントである。
データが限られている場合、正確な人間モデルを構築することは非常に困難である。
人間のユーティリティとそれ自身のユーティリティの線形結合を最大化しようとするエージェントが高いスコアを得ることを示す。
- 参考スコア(独自算出の注目度): 9.061408029414453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the single track road problem. In this problem two agents face
each-other at opposite positions of a road that can only have one agent pass at
a time. We focus on the scenario in which one agent is human, while the other
is an autonomous agent. We run experiments with human subjects in a simple grid
domain, which simulates the single track road problem. We show that when data
is limited, building an accurate human model is very challenging, and that a
reinforcement learning agent, which is based on this data, does not perform
well in practice. However, we show that an agent that tries to maximize a
linear combination of the human's utility and its own utility, achieves a high
score, and significantly outperforms other baselines, including an agent that
tries to maximize only its own utility.
- Abstract(参考訳): 単線道路問題について述べる。
この問題において、2つのエージェントは、一度に1つのエージェントしか通過できない道路の反対位置で互いに対向する。
我々は1つのエージェントが人間であるシナリオに焦点を当て、もう1つは自律的なエージェントである。
単線道路問題をシミュレートした単純なグリッドドメインで被験者と実験を行う。
本研究では,データに制限がある場合,正確な人間モデルを構築することは極めて困難であり,そのデータに基づく強化学習エージェントは実際にはうまく機能しないことを示す。
しかしながら、人間のユーティリティと自身のユーティリティの線形結合を最大化しようとするエージェントは高いスコアを達成し、自身のユーティリティのみを最大化しようとするエージェントを含む、他のベースラインよりも大幅に優れていることを示す。
関連論文リスト
- Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Introducing Risk Shadowing For Decisive and Comfortable Behavior
Planning [0.0]
リスクシャドーイング(リスクシャドーイング)は,単一インタラクションを超越した状況理解手法である。
行動プランナの上流フィルタモジュールとしてリスクシャドーイングを使用することで、より決定的で快適な運転戦略を計画できることを示す。
論文 参考訳(メタデータ) (2023-07-20T09:16:01Z) - Conveying Autonomous Robot Capabilities through Contrasting Behaviour
Summaries [8.413049356622201]
比較行動要約を効率的に生成する適応探索法を提案する。
この結果から,適応探索により,人間がより優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に特定できることが示唆された。
論文 参考訳(メタデータ) (2023-04-01T18:20:59Z) - Embedding Synthetic Off-Policy Experience for Autonomous Driving via
Zero-Shot Curricula [48.58973705935691]
我々は、データの10%サブセットのみを使用してトレーニングされたエージェントが、データセット全体に対してトレーニングされたエージェントと同様に動作することを示す。
次に、この難易度スコアをゼロショット転送に使用して、模倣学習に基づく計画エージェントのカリキュラムを生成することを実証する。
論文 参考訳(メタデータ) (2022-12-02T18:57:21Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z) - Guided Exploration with Proximal Policy Optimization using a Single
Demonstration [5.076419064097734]
エージェントを実演と経験の組み合わせで訓練し、初期条件の異なる問題を解く。
エージェントは、自身の過去の軌跡を再生することで、その性能を高め、困難な問題に対処することができる。
私たちの知識を最大限に活用するために、人間の実演を1つだけ使う前に、同等の難易度を持つ3次元環境でタスクを学習することは、これまで考えられなかった。
論文 参考訳(メタデータ) (2020-07-07T10:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。