論文の概要: Benchmarking Multi-Agent Preference-based Reinforcement Learning for
Human-AI Teaming
- arxiv url: http://arxiv.org/abs/2312.14292v1
- Date: Thu, 21 Dec 2023 20:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:50:01.653173
- Title: Benchmarking Multi-Agent Preference-based Reinforcement Learning for
Human-AI Teaming
- Title(参考訳): ヒューマンAIチームのためのマルチエージェント推論に基づく強化学習のベンチマーク
- Authors: Siddhant Bhambri, Mudit Verma, Anil Murthy, Subbarao Kambhampati
- Abstract要約: 嗜好に基づく強化学習(PbRL)は研究の活発な領域であり、シングルエージェントアクターや観察者によるループのシナリオにおいて大きな進歩を遂げている。
両エージェントがチームに対する報酬関数に従って報酬を受ける2エージェント(Human-AI)の協調構成について検討する。
しかし、エージェントはそれにアクセスできず、その代わりに、人間ロボットチームにおけるロボットの目的と人間の好みを引き出すために、嗜好に基づくクエリを利用する。
- 参考スコア(独自算出の注目度): 16.701242561345786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) is an active area of research,
and has made significant strides in single-agent actor and in observer
human-in-the-loop scenarios. However, its application within the co-operative
multi-agent RL frameworks, where humans actively participate and express
preferences for agent behavior, remains largely uncharted. We consider a
two-agent (Human-AI) cooperative setup where both the agents are rewarded
according to human's reward function for the team. However, the agent does not
have access to it, and instead, utilizes preference-based queries to elicit its
objectives and human's preferences for the robot in the human-robot team. We
introduce the notion of Human-Flexibility, i.e. whether the human partner is
amenable to multiple team strategies, with a special case being Specified
Orchestration where the human has a single team policy in mind (most
constrained case). We propose a suite of domains to study PbRL for Human-AI
cooperative setup which explicitly require forced cooperation. Adapting
state-of-the-art single-agent PbRL algorithms to our two-agent setting, we
conduct a comprehensive benchmarking study across our domain suite. Our
findings highlight the challenges associated with high degree of
Human-Flexibility and the limited access to the human's envisioned policy in
PbRL for Human-AI cooperation. Notably, we observe that PbRL algorithms exhibit
effective performance exclusively in the case of Specified Orchestration which
can be seen as an upper bound PbRL performance for future research.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)は研究の活発な領域であり、シングルエージェントアクターや観察者のループシナリオにおいて大きな進歩を遂げている。
しかし, エージェント行動の嗜好を積極的に参加し, 表現する, 協調的マルチエージェントRLフレームワークへの応用は, ほとんど未完成のままである。
我々は,両エージェントがチームに対する報酬機能に応じて報酬を受ける2エージェント(人間-ai)協調設定を検討する。
しかし、エージェントはそれにアクセスできず、代わりに、人間ロボットチームにおけるロボットの目的と人間の好みを引き出すために、好みに基づくクエリを利用する。
我々は、ヒューマン・フレキシビリティの概念、すなわち、人間のパートナーが複数のチーム戦略に適応できるかどうか、特に、人間が1つのチームポリシーを念頭に置いて(ほとんどが制約されたケース)、特定のオーケストレーションである、という概念を紹介します。
我々は,PbRLを強制的な協調を必要とする,人間とAIの協調作業のための一組のドメインを提案する。
最先端のシングルエージェントPbRLアルゴリズムを2エージェント設定に適用し、ドメインスイート全体にわたって包括的なベンチマーク調査を行います。
本研究は,PbRLにおける高い柔軟性の確保と,PbRLにおける人間とAIの連携に関する政策への限定的アクセスに関する課題を明らかにする。
特に、PbRLアルゴリズムは、特定オーケストレーションの場合のみに有効な性能を示しており、これは将来の研究において上界のPbRL性能と見なすことができる。
関連論文リスト
- Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - A Hierarchical Approach to Population Training for Human-AI
Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。
本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文 参考訳(メタデータ) (2023-05-26T07:53:12Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination [21.800115245671737]
本研究では,人間データを使用しない強化学習(RL)エージェントを訓練する際の課題について考察する。
我々は,多種多様なエージェントの学習を促進するために,集中型のエントロピー目標を導出する。
論文 参考訳(メタデータ) (2021-12-22T07:19:36Z) - Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文 参考訳(メタデータ) (2021-10-15T16:03:57Z) - Adaptive Agent Architecture for Real-time Human-Agent Teaming [3.284216428330814]
エージェントは人間の意図を推論し、警察を円滑な調整に適応させることが重要である。
ほとんどの文献は、学習された人間のモデルを参照するエージェントを構築している。
二者協調ゲームにおける人間モデルフリー設定における適応エージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-07T20:08:09Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。