論文の概要: Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming
- arxiv url: http://arxiv.org/abs/2312.14292v2
- Date: Tue, 24 Sep 2024 16:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:05:28.624453
- Title: Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming
- Title(参考訳): 人-AIチームにおけるリワード選好によるヒューマンフレキシビリティの導入
- Authors: Siddhant Bhambri, Mudit Verma, Upasana Biswas, Anil Murthy, Subbarao Kambhampati,
- Abstract要約: 我々は、人間-AI PbRL協調ゲームを開発し、RLエージェントが、作業目標と人間の協調行動への嗜好を引き出すために、人間-AI PbRL協調ゲームを開発する。
このゲーム定式化では、まず、人間が一定のポリシーに従うか、RLエージェントをオンザフライで適応するかに基づいて、チームのパフォーマンスを評価するために、ヒューマンフレキシビリティの概念を導入する。
私たちはこの2つの側面に沿った特別なケースを強調します。それは、特定オーケストレーションと呼ばれ、人間は柔軟で、エージェントは人間のポリシーを完全にアクセスできます。
- 参考スコア(独自算出の注目度): 14.250120245287109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) has made significant strides in single-agent settings, but has not been studied for multi-agent frameworks. On the other hand, modeling cooperation between multiple agents, specifically, Human-AI Teaming settings while ensuring successful task completion is a challenging problem. To this end, we perform the first investigation of multi-agent PbRL by extending single-agent PbRL to the two-agent teaming settings and formulate it as a Human-AI PbRL Cooperation Game, where the RL agent queries the human-in-the-loop to elicit task objective and human's preferences on the joint team behavior. Under this game formulation, we first introduce the notion of Human Flexibility to evaluate team performance based on if humans prefer to follow a fixed policy or adapt to the RL agent on the fly. Secondly, we study the RL agent's varying access to the human policy. We highlight a special case along these two dimensions, which we call Specified Orchestration, where the human is least flexible and agent has complete access to human policy. We motivate the need for taking Human Flexibility into account and the usefulness of Specified Orchestration through a gamified user study. We evaluate state-of-the-art PbRL algorithms for Human-AI cooperative setups through robot locomotion based domains that explicitly require forced cooperation. Our findings highlight the challenges associated with PbRL by varying Human Flexibility and agent's access to the human policy. Finally, we draw insights from our user study and empirical results, and conclude that Specified Orchestration can be seen as an upper bound PbRL performance for future research in Human-AI teaming scenarios.
- Abstract(参考訳): 嗜好に基づく強化学習(PbRL)はシングルエージェント設定において大きな進歩を遂げているが、マルチエージェントフレームワークでは研究されていない。
一方,複数エージェント,特にHuman-AI Teaming設定間の協調をモデル化すると同時に,タスク完了の達成も困難である。
この目的のために、我々は、シングルエージェントPbRLを2エージェントのチーム構成に拡張し、それをHuman-AI PbRL協調ゲームとして定式化することで、マルチエージェントPbRLを初めて調査する。
このゲーム定式化では、まず、人間が一定のポリシーに従うか、RLエージェントをオンザフライで適応するかに基づいて、チームのパフォーマンスを評価するために、ヒューマンフレキシビリティの概念を導入する。
第2に、RLエージェントのヒューマンポリシーへの様々なアクセスについて研究する。
私たちはこの2つの側面に沿った特別なケースを強調します。それは、特定オーケストレーションと呼ばれ、人間は柔軟で、エージェントは人間のポリシーを完全にアクセスできます。
我々は,人間フレキシビリティを考慮に入れる必要性と,ゲーミフィケーションされたユーザスタディを通じて特定オーケストレーションの有用性を考慮に入れることの必要性を動機付けている。
我々は,ロボットの移動に基づく協調作業を強制的に要求するドメインを用いて,人間とAIの協調作業のための最先端PbRLアルゴリズムの評価を行った。
本研究は, PbRLに関する課題を, ヒトの柔軟性とエージェントによる人的政策へのアクセスによって明らかにした。
最後に,ユーザスタディと経験的結果から洞察を得た上で,人間とAIのコラボレーションシナリオにおける今後の研究において,特定オーケストレーションを上位境界のPbRLパフォーマンスとみなすことができる,と結論付けた。
関連論文リスト
- Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - A Hierarchical Approach to Population Training for Human-AI
Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。
本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文 参考訳(メタデータ) (2023-05-26T07:53:12Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination [21.800115245671737]
本研究では,人間データを使用しない強化学習(RL)エージェントを訓練する際の課題について考察する。
我々は,多種多様なエージェントの学習を促進するために,集中型のエントロピー目標を導出する。
論文 参考訳(メタデータ) (2021-12-22T07:19:36Z) - Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文 参考訳(メタデータ) (2021-10-15T16:03:57Z) - Adaptive Agent Architecture for Real-time Human-Agent Teaming [3.284216428330814]
エージェントは人間の意図を推論し、警察を円滑な調整に適応させることが重要である。
ほとんどの文献は、学習された人間のモデルを参照するエージェントを構築している。
二者協調ゲームにおける人間モデルフリー設定における適応エージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-07T20:08:09Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。