Fugu-MT 論文翻訳(概要): A Socially Aware Reinforcement Learning Agent for The Single Track Road Problem

論文の概要: A Socially Aware Reinforcement Learning Agent for The Single Track Road Problem

arxiv url: http://arxiv.org/abs/2109.05486v1
Date: Sun, 12 Sep 2021 11:05:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-14 15:17:28.037272
Title: A Socially Aware Reinforcement Learning Agent for The Single Track Road Problem
Title（参考訳）: シングルトラック道路問題に対する社会的に意識された強化学習エージェント
Authors: Ido Shapira and Amos Azaria
Abstract要約: 我々は1つのエージェントが人間であるシナリオに焦点を当て、もう1つは自律的なエージェントである。データが限られている場合、正確な人間モデルを構築することは非常に困難である。人間のユーティリティとそれ自身のユーティリティの線形結合を最大化しようとするエージェントが高いスコアを得ることを示す。
参考スコア（独自算出の注目度）: 9.061408029414453
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the single track road problem. In this problem two agents face each-other at opposite positions of a road that can only have one agent pass at a time. We focus on the scenario in which one agent is human, while the other is an autonomous agent. We run experiments with human subjects in a simple grid domain, which simulates the single track road problem. We show that when data is limited, building an accurate human model is very challenging, and that a reinforcement learning agent, which is based on this data, does not perform well in practice. However, we show that an agent that tries to maximize a linear combination of the human's utility and its own utility, achieves a high score, and significantly outperforms other baselines, including an agent that tries to maximize only its own utility.
Abstract（参考訳）: 単線道路問題について述べる。この問題において、2つのエージェントは、一度に1つのエージェントしか通過できない道路の反対位置で互いに対向する。我々は1つのエージェントが人間であるシナリオに焦点を当て、もう1つは自律的なエージェントである。単線道路問題をシミュレートした単純なグリッドドメインで被験者と実験を行う。本研究では,データに制限がある場合,正確な人間モデルを構築することは極めて困難であり,そのデータに基づく強化学習エージェントは実際にはうまく機能しないことを示す。しかしながら、人間のユーティリティと自身のユーティリティの線形結合を最大化しようとするエージェントは高いスコアを達成し、自身のユーティリティのみを最大化しようとするエージェントを含む、他のベースラインよりも大幅に優れていることを示す。

関連論文リスト

When Should We Orchestrate Multiple Agents? [74.27052374196269]
人間と人工の両方の複数のエージェント間の相互作用を編成する戦略は、パフォーマンスを過大評価し、オーケストレーションのコストを過小評価する。推論コストや可用性制約といった現実的な条件下でエージェントを編成するフレームワークを設計する。我々は,エージェント間の性能差やコスト差がある場合にのみ,オーケストレーションが有効であることを理論的に示す。
論文参考訳（メタデータ） (2025-03-17T14:26:07Z)
Multi-Agent Inverse Q-Learning from Demonstrations [3.4136908117644698]
Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL)は、マルチエージェントIRLのための新しいサンプル効率フレームワークである。 MAMQLは,従来のマルチエージェント手法よりも平均報酬率,サンプル効率,報酬回復率を2～5倍に向上させることを示した。
論文参考訳（メタデータ） (2025-03-06T18:22:29Z)
WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving [54.365702251769456]
我々は、駆動シーケンス当たり平均8.4エージェントのデータセットを提示する。自律運転データセットの中で最大のエージェントと視点を提供するだけでなく、WHALESはエージェントの振る舞いを記録する。エージェントスケジューリングタスクにおいて,エゴエージェントが複数の候補エージェントの1つを選択して協調する実験を行う。
論文参考訳（メタデータ） (2024-11-20T14:12:34Z)
PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文参考訳（メタデータ） (2024-10-31T17:53:12Z)
Aligning AI Agents via Information-Directed Sampling [20.617552198581024]
バンドアライメントの問題は、環境と人間と相互作用することで、長期にわたる期待される報酬を最大化することである。本研究では,これらのトレードオフを,Beta-Bernoulli banditに類似した玩具帯状アライメント問題において理論的,実証的に検討する。我々は、現在の慣行を反映した単純な探索アルゴリズムと、トンプソンサンプリングのような有望なアルゴリズムの両方が、この問題に対する許容できる解決策を提供していないことを実証する。
論文参考訳（メタデータ） (2024-10-18T18:23:41Z)
On the Complexity of Learning to Cooperate with Populations of Socially Rational Agents [17.015143707851358]
有限繰り返しの2つのプレイヤー汎用行列ゲームにおいて,エージェントのテキストポピュレーションと協調する問題を考える。以上の結果から,これらの仮定だけでは,標的個体群とテミセロショットの連携を確保するには不十分であることが示唆された。効果的な協調戦略を学習するために必要なサンプル数について,上層および下層境界を提供する。
論文参考訳（メタデータ） (2024-06-29T11:59:52Z)
Human-compatible driving partners through data-regularized self-play reinforcement learning [3.9682126792844583]
HR-PPO(Human-Regularized PPO)は、エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイを通じて訓練されるマルチエージェントアルゴリズムである。その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
論文参考訳（メタデータ） (2024-03-28T17:56:56Z)
Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文参考訳（メタデータ） (2023-07-25T12:33:53Z)
Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文参考訳（メタデータ） (2022-06-13T09:17:40Z)
Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文参考訳（メタデータ） (2022-02-17T02:44:05Z)
Watch-And-Help: A Challenge for Social Perception and Human-AI Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。 WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文参考訳（メタデータ） (2020-10-19T21:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。